Devido à ambiguidade inerente em imagens médicas como raios-X, os radiologistas geralmente usam palavras como “pode” ou “provavelmente” ao descrever a presença de uma certa patologia, como a pneumonia.
Mas as palavras que os radiologistas usam para expressar seu nível de confiança refletem com precisão a frequência com que uma patologia específica ocorre em pacientes? Um novo estudo mostra que, quando os radiologistas expressam confiança sobre uma certa patologia usando uma frase como “muito provável”, eles tendem a ser confiantes demais e vice-versa quando expressam menos confiança usando uma palavra como “possivelmente”.
Usando dados clínicos, uma equipe multidisciplinar de pesquisadores do MIT em colaboração com pesquisadores e clínicos em hospitais afiliados à Harvard Medical Faculty criou uma estrutura para quantificar como os radiologistas são confiáveis quando expressam certeza usando termos de linguagem pure.
Eles usaram essa abordagem para fornecer sugestões claras que ajudam os radiologistas a escolher frases de certeza que melhorassem a confiabilidade de seus relatórios clínicos. Eles também mostraram que a mesma técnica pode medir e melhorar efetivamente a calibração de grandes modelos de linguagem, alinhando melhor as palavras que os modelos usam para expressar confiança com a precisão de suas previsões.
Ao ajudar os radiologistas a descrever com mais precisão a probabilidade de certas patologias em imagens médicas, essa nova estrutura pode melhorar a confiabilidade das informações clínicas críticas.
“As palavras que os radiologistas usam são importantes. Eles afetam como os médicos intervêm, em termos de tomada de decisão para o paciente. Se esses profissionais puderem ser mais confiáveis em seus relatórios, os pacientes serão os beneficiários finais”, diz Peiqi Wang, um estudante de pós -graduação do MIT e principal autor de um autor de um autor Artigo sobre esta pesquisa.
Ele se junta ao artigo da autora sênior Polina Golland, professora de engenharia elétrica e ciência da computação (EECs), uma investigadora principal do Laboratório de Ciência da Computação e Inteligência Synthetic do MIT (CSAIL) e o líder do Grupo de Visão Médica; bem como Barbara D. Lam, uma clínica do Centro Médico Beth Israel Deaconess; Yingcheng Liu, estudante de pós -graduação do MIT; Ameneh Asgari-Targhi, pesquisador do Massachusetts Normal Brigham (MGB); Rameswar Panda, membro da equipe de pesquisa do MIT-IBM Watson AI Lab; William M. Wells, professor de radiologia da MGB e cientista de pesquisa em Csail; e Tina Kapur, professora assistente de radiologia da MGB. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.
Decodificar incerteza em palavras
Um radiologista escrevendo um relatório sobre uma radiografia de tórax pode dizer que a imagem mostra uma pneumonia “possível”, que é uma infecção que inflama os sacos de ar nos pulmões. Nesse caso, um médico poderia solicitar uma tomografia computadorizada de acompanhamento para confirmar o diagnóstico.
No entanto, se o radiologista escrever que o raio-x mostra uma pneumonia “provável”, o médico poderá iniciar o tratamento imediatamente, como prescrevendo antibióticos, enquanto ainda solicitava testes adicionais para avaliar a gravidade.
Tentar medir a calibração ou confiabilidade de termos ambíguos de linguagem pure como “possivelmente” e “provavelmente” apresenta muitos desafios, diz Wang.
Os métodos de calibração existentes normalmente dependem da pontuação de confiança fornecida por um modelo de IA, que representa a probabilidade estimada do modelo de que sua previsão esteja correta.
Por exemplo, um aplicativo meteorológico pode prever uma probability de 83 % de chuva amanhã. Esse modelo é bem calibrado se, em todas as instâncias em que prevê uma probability de 83 % de chuva, chove aproximadamente 83 % do tempo.
“Mas os seres humanos usam linguagem pure e, se mapearmos essas frases para um único número, não é uma descrição precisa do mundo actual. Se uma pessoa diz que um evento é” provável “, eles não estão necessariamente pensando na probabilidade exata, como 75 %”, diz Wang.
Em vez de tentar mapear frases de certeza para uma porcentagem única, a abordagem dos pesquisadores as trata como distribuições de probabilidade. Uma distribuição descreve a gama de possíveis valores e suas probabilidades – pense na curva clássica do sino nas estatísticas.
“Isso captura mais nuances do que cada palavra significa”, acrescenta Wang.
Avaliação e melhoria da calibração
Os pesquisadores aproveitaram trabalhos anteriores que pesquisaram radiologistas para obter distribuições de probabilidade que correspondem a cada frase de certeza de diagnóstico, variando de “muito provavelmente” a “consistente com”.
Por exemplo, como mais radiologistas acreditam que a frase “consistente com” significa que uma patologia está presente em uma imagem médica, sua distribuição de probabilidade sobe acentuadamente para um pico alto, com a maioria dos valores agrupada em torno da faixa de 90 a 100 %.
Em contraste, a frase “pode representar” transmite maior incerteza, levando a uma distribuição mais ampla em forma de sino centrada em torno de 50 %.
Os métodos típicos avaliam a calibração comparando o quão bem os escores de probabilidade previstos de um modelo estão alinhados com o número actual de resultados positivos.
A abordagem dos pesquisadores segue a mesma estrutura geral, mas a estende para explicar o fato de que as frases de certeza representam distribuições de probabilidade e não de probabilidades.
Para melhorar a calibração, os pesquisadores formularam e resolveram um problema de otimização que ajusta a frequência com que certas frases são usadas, para melhor alinhar a confiança à realidade.
Eles derivam um mapa de calibração que sugere termos de certeza que um radiologista deve usar para tornar os relatórios mais precisos para uma patologia específica.
“Talvez, para esse conjunto de dados, se toda vez que o radiologista disse que a pneumonia estava ‘presente’, eles mudaram a frase para ‘provavelmente apresentar’, então se tornariam melhor calibrados”, explica Wang.
Quando os pesquisadores usaram sua estrutura para avaliar relatórios clínicos, descobriram que os radiologistas geralmente eram insuficientes ao diagnosticar condições comuns como atelectasia, mas muito confiante com condições mais ambíguas, como infecção.
Além disso, os pesquisadores avaliaram a confiabilidade dos modelos de idiomas usando seu método, fornecendo uma representação de confiança mais sutil do que os métodos clássicos que dependem das pontuações de confiança.
“Muitas vezes, esses modelos usam frases como ‘certamente’. Mas como eles estão muito confiantes em suas respostas, isso não incentiva as pessoas a verificar a correção das próprias declarações ”, acrescenta Wang.
No futuro, os pesquisadores planejam continuar colaborando com os médicos na esperança de melhorar os diagnósticos e o tratamento. Eles estão trabalhando para expandir seu estudo para incluir dados de tomografias abdominais.
Além disso, eles estão interessados em estudar como os radiologistas receptivos estão em sugestões de melhoria de calibração e se podem ajustar mentalmente o uso de frases de certeza.
“Expressão da certeza diagnóstica é um aspecto essential do relatório de radiologia, pois influencia as decisões de gerenciamento significativas. Este estudo adota uma nova abordagem para analisar e calibrar como os radiologistas expressam certeza diagnóstica nos relatórios de raios X de tórax, oferecendo suggestions sobre o uso de termos e os resultados associados”, diz a ATUL B. “Essa abordagem tem o potencial de melhorar a precisão e a comunicação dos radiologistas, o que ajudará a melhorar o atendimento ao paciente”.
O trabalho foi financiado, em parte, por uma bolsa de Takeda, o MIT-IBM Watson AI Lab, o MIT Csail Wistrom Program e a Clínica MIT Jameel.