Nvidia emite hotfix para o problema de superaquecimento do motorista da GPU


Ontem, a Nvidia apressou um hotfix crítico para conter as consequências de uma liberação anterior de motorista que desencadeou alarme nas comunidades de IA e jogos, fazendo com que os sistemas relatassem falsamente as temperaturas seguras da GPU – mesmo quando as demandas de resfriamento subiram silenciosamente em direção a níveis potencialmente críticos.

No oficial da Nvidia publicar Em torno do lançamento do hotfix, embora apenas o terceiro na lista de correções declaradas, o problema é citado como ‘Os utilitários de monitoramento da GPU podem parar de relatar a temperatura da GPU depois que o PC acorda do sono ‘.

Emblem após o motorista do jogo afetado 576.02 foi lançado, um fio fixado no sub-reddit estável, intitulado Leia para salvar sua GPU!tornou-se um recurso para problemas anedóticos e atualizações relatadas pelo usuário sobre o novo driver. A partir desses e outros relatórios na Internet, algumas linhas do tempo de problemas emergentes podem ser estabelecidas.

O primeiro relatório do Reddit do bug parece ter ocorreu no remaining da tarde de sexta -feira à UTC, no Zephyrusg14 subreddit, onde o usuário Frycy81 citou um publicar nos fóruns da NVIDIA (arquivado):

Nvidia emite hotfix para o problema de superaquecimento do motorista da GPU

Um usuário nos fóruns da NVIDIA encontra problemas após a atualização 576.02. Fonte: https://www.nvidia.com/en-us/geforce/boards/game-ready-dririvers/13/563010/geforce-rd-57602-feedback-thread-released-41625/3524072/

O usuário dos fóruns da NVIDIA relatou que, depois de instalar a atualização do driver, ferramentas como MSI Afterburner e monitores no jogo como o em Chamada à ação (que geralmente acessam as leituras do sistema nativo, assim como o painel GPU do gerenciador de tarefas faz no Home windows) parou de atualizar as leituras de temperatura da GPU, congelando cerca de 35-36 ° C.

Reiniciar o software program de monitoramento não teve efeito, afirmou o usuário, e apenas uma reinicialização completa do sistema restauraria leituras precisas. Ferramentas como o aplicativo de monitoramento HWINFO e NVIDIA continuaram a relatar temperaturas corretamente. O usuário enfatizou que o problema ocorreu durante o uso regular, não apenas depois de acordar o sistema do sono.

O suggestions do usuário em vários fóruns destacou uma interrupção geral do comportamento regular da curva do ventilador e uma alteração da regulação térmica do núcleo, resultando em unidades de processamento de gráficos em marcha lenta a temperaturas inesperadamente altas e superaquecendo assustadoramente sob o que normalmente seria considerado cargas operacionais padrão, conforme detalhado Neste comentário:

‘Eu poderia dizer que algo estava errado. O tempo lá fora estava provavelmente em torno de 55 ° F / 12 ° C, mas eu estava cozinhando vivo no meu quarto. Minha janela estava aberta e, no entanto, eu não conseguia sentir nenhuma diferença. Todos os fãs estavam correndo no Max, e Temps parecia bem a princípio – em primeiro lugar – 68 ° C a 72 ° C após os jogos por um tempo.

‘No começo, isso parecia regular – até a manhã seguinte, quando percebi que esses não são temperaturas ociosas, e os fãs ainda estavam (chutando).

‘Eu tinha feito um overclock de IA depois de consertar algumas coisas ultimamente, então não tinha certeza se os valores haviam acabado de aumentar muito. Aconteceu uma vez antes de instalar a Asus AI Suite 3 – as configurações do BIOS nem funcionariam corretamente por causa disso.

De qualquer forma, fui em frente e voltei para um motorista mais antigo por enquanto. ‘

Sub-ideal

O lançamento oficial Pdf Para a atualização do driver 576.02, oferece algumas pistas sobre mudanças que podem ter contribuído para os novos problemas. Na Seção 5.5, a NVIDIA reconhece que a temperatura da GPU pode ser relatada incorretamente na NVIDIA Optimus sistemas, mostrando especificamente graus zero quando nenhum aplicativo está em execução.

A Seção 5.5 das 576.02 Notas de atualização oficial abordam problemas de monitoramento de temperatura que parecem ter afetado um número mais amplo de sistemas do que o sistema Optimus. Fonte: https://us.download.nvidia.com/windows/576.02/576.02-n11-win10-release-notes.pdf

A Seção 5.5 das 576.02 Notas de atualização oficial abordam problemas de monitoramento de temperatura que parecem ter afetado um número mais amplo de sistemas do que o sistema Optimus. Fonte: https://us.obtain.nvidia.com/home windows/576.02/576.02-n11-win10-release-notes.pdf

O lançamento afirma:

5.5 Temperatura da GPU relatada incorretamente nos sistemas Optimus

5.5.1 Edição

Nos sistemas Optimus, ferramentas de relatórios de temperatura, como Speccy ou GPU-Z, relatam que a temperatura da GPU da NVIDIA é zero quando nenhum aplicativo está em execução.

5.5.2 Explicação

Nos sistemas Optimus, quando a GPU da NVIDIA não está sendo usada, ela é colocada em um estado de baixa potência. Isso faz com que as ferramentas de relatórios de temperatura retornem valores incorretos. Acordar a GPU para consultar a temperatura resultaria em medições sem sentido, porque a alteração da temperatura da GPU como resultado.

Essas ferramentas relatarão temperaturas precisas somente quando a GPU estiver acordada e em funcionamento.

A NVIDIA Optimus é uma tecnologia de comutação de GPU que alterna entre gráficos integrados e discretos com base nas demandas de aplicativos, a fim de equilibrar automaticamente o desempenho e o consumo de energia, projetados para economizar a vida útil da bateria e reduzir o consumo de energia. Para tarefas como jogos ou reprodução de vídeo em HD, o Optimus ativa a GPU discreta para melhor desempenho; Durante atividades mais leves, como navegação na Internet, reverte para gráficos integrados (a bordo).

A atualização parece ter estendido um comportamento anteriormente limitado aos sistemas Optimus, permitindo que a GPU afetada insira um estado de baixa potência enquanto está ocioso, mesmo quando não hospedado em um sistema Optimus, por sua vez, interrompendo os relatórios de temperatura em ferramentas de terceiros.

Ajuste de risco

Na maioria dos cenários, é justo dizer que a placa gráfica VBIOS provavelmente teria impedido danos permanentes na GPU. O VBIOS aplica limites térmicos e de energia no nível do firmware, independentemente do motorista.

Portanto, mesmo que um motorista trigger comportamento inadequado dos fãs ou temperaturas incorretas, o VBIOS ainda deve acelerar o desempenho, aumentar a atividade dos fãs ou desligar a GPU para impedir a falha de {hardware}.

Isso não significa que o risco foi trivial – altas temperaturas sustentadas podem degradar o desempenho ao longo do tempo ou componentes adjacentes de estresse; Além disso, ausente um entendimento comum de que um driver atualizado causou um problema (principalmente nos sistemas em que os motoristas atualizam ‘silenciosamente’), uma questão dessa natureza pode enganar uma grande proporção de usuários afetados, que podem tentar remédios para problemas inexistentes ou até potencialmente causar danos a seus sistemas aplicando correções não relevantes.

O comportamento errante causado pela atualização 576.02 foi particularmente alarmante para aqueles envolvidos em fluxos de trabalho de inteligência synthetic, onde o {hardware} de alto desempenho é rotineiramente empurrado para seus limites térmicos para durações prolongadas.

O problemático driver 576.02 inspirou uma erupção mais ampla de reclamações após seu lançamento em meados de abril, apesar da inicial Relatórios que ofereceu algumas melhorias benéficas de desempenho. Não obstante a disposição do hotfix e o nível de interrupção que 576.02 parece ter causado, no momento em que escreva, permanece disponível para obtain* No website da Nvidia.

Após o blow

Em termos de precipitação da atualização defeituosa, existem vários tipos de danos e / ou inconvenientes relatados: Usuário Frankie_T9000 relatado que sua GPU caiu na bota devido ao acúmulo de calor sob a atualização de falhas e apenas estabilizada após a subida. Ele comentou ‘Parece que não está prejudicado permanentemente, mas precisa repassas o mais rápido possível (tenho almofadas na quarta -feira) suspeitam que a pasta térmica antiga tenha sido envelhecida mais pelo acúmulo de calor, então estou colocando novas almofadas de pasta.

Ontem outro usuário no mesmo tópico declarado: ‘Estou usando uma curva de ventilador personalizada Wit MSI Afterburner, e continuou mostrando que minhas temperaturas da GPU estavam constantemente a 27 ° C, então os fãs não ligavam, o que levou a superaquecimento de problemas. Eu pensei que period um problema de mim, mas depois de instalar o driver anterior, tudo funcionou bem novamente. Além disso, as temperaturas não são exibidas corretamente no TaskManager. ‘

Embora a NVIDIA (como afirma persistentemente em cada lançamento do hotfix) geralmente forneça hotfixes para jogos ou plataformas específicas, o risco de danos causais para o calor ou ao redor de uma GPU é maior para os praticantes de IA do que para videogâmero, uma vez que processos intensivos de aprendizado de máquina, como treinamento ou inferência sustentada, um GPU sob carga consistente de longo prazo -Um evento que provavelmente será acionado apenas periodicamente em um jogo, que pode “pular” em alto uso para uma batalha de chefes ou uma seção de mapa particularmente exigente, mas que de outra forma é projetada como um compromisso entre a exploração da GPU e a estabilidade do sistema.

* Arquivo: https://archive.ph/ylvr1

Publicado pela primeira vez na terça -feira, 22 de abril de 2025

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *