
Os investigadores do MIT identificaram exemplos significativos de falhas nos modelos de aprendizagem automática quando esses modelos são aplicados a dados diferentes daqueles em que foram treinados, levantando questões sobre a necessidade de testar sempre que um modelo é implementado num novo ambiente.
“Demonstramos que mesmo quando você treina modelos em grandes quantidades de dados e escolhe o melhor modelo médio, em um novo cenário esse ‘melhor modelo’ pode ser o pior modelo para 6-75 por cento dos novos dados”, diz Marzyeh Ghassemi, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, membro do Instituto de Engenharia Médica e Ciência e investigador principal do Laboratório de Sistemas de Informação e Decisão.
Em um papel que foi apresentado na conferência Neural Data Processing Programs (NeurIPS 2025) em dezembro, os pesquisadores apontam que modelos treinados para diagnosticar doenças com eficácia em radiografias de tórax em um hospital, por exemplo, podem ser considerados eficazes em um hospital diferente, em média. A avaliação de desempenho dos investigadores, no entanto, revelou que alguns dos modelos com melhor desempenho no primeiro hospital tiveram o pior desempenho em até 75 por cento dos pacientes no segundo hospital, embora quando todos os pacientes são agregados no segundo hospital, o desempenho médio elevado esconda esta falha.
Suas descobertas demonstram que, embora correlações espúrias – um exemplo simples das quais é quando um sistema de aprendizado de máquina, não tendo “visto” muitas vacas retratadas na praia, classifica uma foto de uma vaca na praia como uma orca simplesmente por causa de seu fundo – são consideradas mitigadas apenas pela melhoria do desempenho do modelo nos dados observados, na verdade elas ainda ocorrem e permanecem um risco para a confiabilidade de um modelo em novos ambientes. Em muitos casos – incluindo áreas examinadas pelos investigadores, como radiografias do tórax, imagens histopatológicas do cancro e deteção de discurso de ódio – tais correlações espúrias são muito mais difíceis de detetar.
No caso de um modelo de diagnóstico médico treinado em radiografias de tórax, por exemplo, o modelo pode ter aprendido a correlacionar uma marcação específica e irrelevante nas radiografias de um hospital com uma determinada patologia. Em outro hospital onde a marcação não é utilizada, essa patologia pode passar despercebida.
Pesquisas anteriores do grupo de Ghassemi mostraram que os modelos podem correlacionar falsamente fatores como idade, sexo e raça com descobertas médicas. Se, por exemplo, um modelo tiver sido treinado em radiografias do tórax de mais pessoas idosas que têm pneumonia e não tiver “visto” tantas radiografias pertencentes a pessoas mais jovens, poderá prever que apenas os pacientes mais velhos têm pneumonia.
“Queremos que os modelos aprendam como observar as características anatômicas do paciente e depois tomar uma decisão com base nisso”, diz Olawale Salaudeen, pós-doutorado do MIT e principal autor do artigo, “mas na verdade, qualquer coisa que esteja nos dados que esteja correlacionada com uma decisão pode ser usada pelo modelo. E essas correlações podem não ser realmente robustas com as mudanças no ambiente, tornando as previsões do modelo fontes não confiáveis de tomada de decisão.”
Correlações espúrias contribuem para os riscos de tomada de decisão tendenciosa. No artigo da conferência NeurIPS, os pesquisadores mostraram que, por exemplo, os modelos de radiografia de tórax que melhoraram o desempenho geral do diagnóstico, na verdade, tiveram pior desempenho em pacientes com condições pleurais ou cardiomediastino aumentado, o que significa aumento do coração ou da cavidade torácica central.
Outros autores do artigo incluíram os estudantes de doutorado Haoran Zhang e Kumail Alhamoud, a professora assistente do EECS Sara Beery e Ghassemi.
Embora trabalhos anteriores tenham geralmente aceito que os modelos ordenados do melhor para o pior por desempenho preservarão essa ordem quando aplicados em novos ambientes, chamados de precisão na linha, os pesquisadores conseguiram demonstrar exemplos de quando os modelos com melhor desempenho em um ambiente tiveram o pior desempenho em outro.
Salaudeen desenvolveu um algoritmo chamado OODSelect para encontrar exemplos onde a precisão na linha foi quebrada. Basicamente, ele treinou milhares de modelos usando dados em distribuição, o que significa que os dados eram da primeira configuração, e calculou sua precisão. Em seguida, ele aplicou os modelos aos dados da segunda configuração. Quando aqueles com a maior precisão nos dados do primeiro cenário estavam errados quando aplicados a uma grande percentagem de exemplos no segundo cenário, isso identificou os subconjuntos ou subpopulações problemáticas. Salaudeen também enfatiza os perigos das estatísticas agregadas para avaliação, que podem obscurecer informações mais granulares e consequentes sobre o desempenho do modelo.
No decorrer do seu trabalho, os investigadores separaram os “exemplos mais mal calculados” para não confundir correlações espúrias dentro de um conjunto de dados com situações que são simplesmente difíceis de classificar.
O artigo do NeurIPS divulga o código dos pesquisadores e alguns subconjuntos identificados para trabalhos futuros.
Depois que um hospital, ou qualquer organização que emprega aprendizado de máquina, identifica subconjuntos nos quais um modelo apresenta desempenho insatisfatório, essa informação pode ser usada para melhorar o modelo para sua tarefa e configuração específicas. Os pesquisadores recomendam que trabalhos futuros adotem o OODSelect para destacar metas para avaliação e projetar abordagens para melhorar o desempenho de forma mais consistente.
“Esperamos que o código lançado e os subconjuntos OODSelect se tornem um trampolim”, escrevem os pesquisadores, “em direção a benchmarks e modelos que enfrentem os efeitos adversos de correlações espúrias”.