Para o olho destreinado, uma imagem médica como uma ressonância magnética ou raio-X parece ser uma coleção turva de manchas pretas e brancas. Pode ser uma luta decifrar onde uma estrutura (como um tumor) termina e outra começa.
Quando treinados para entender os limites das estruturas biológicas, os sistemas de IA podem segmentar (ou delinear) regiões de interesse que médicos e profissionais biomédicos desejam monitorar para doenças e outras anormalidades. Em vez de perder tempo precioso rastreando anatomia manualmente em muitas imagens, um assistente synthetic poderia fazer isso por eles.
O problema? Pesquisadores e clínicos devem rotular inúmeras imagens para treinar seu sistema de IA antes que ele possa segmentar com precisão. Por exemplo, você precisaria anotar o córtex cerebral em inúmeras varreduras de ressonância magnética para treinar um modelo supervisionado para entender como o formato do córtex pode variar em diferentes cérebros.
Ignorando essa coleta de dados tediosa, pesquisadores do Laboratório de Ciência da Computação e Inteligência Synthetic do MIT (CSAIL), do Hospital Geral de Massachusetts (MGH) e da Escola Médica de Harvard desenvolveram o interativo “RabiscoPrompt” estrutura: uma ferramenta flexível que pode ajudar a segmentar rapidamente qualquer imagem médica, mesmo tipos nunca vistos antes.
Em vez de fazer com que humanos marcassem cada imagem manualmente, a equipe simulou como os usuários anotariam mais de 50.000 exames, incluindo ressonâncias magnéticas, ultrassons e fotografias, em estruturas nos olhos, células, cérebros, ossos, pele e muito mais. Para rotular todos esses exames, a equipe usou algoritmos para simular como humanos rabiscariam e clicariam em diferentes regiões em imagens médicas. Além de regiões comumente rotuladas, a equipe também usou algoritmos de superpixel, que encontram partes da imagem com valores semelhantes, para identificar potenciais novas regiões de interesse para pesquisadores médicos e treinar o ScribblePrompt para segmentá-las. Esses dados sintéticos prepararam o ScribblePrompt para lidar com solicitações de segmentação do mundo actual de usuários.
“A IA tem um potencial significativo na análise de imagens e outros dados de alta dimensão para ajudar os humanos a fazer as coisas de forma mais produtiva”, afirma a estudante de doutorado do MIT Hallee Wong SM ’22, autora principal de um novo artigo sobre ScribblePrompt e uma afiliada do CSAIL. “Queremos aumentar, não substituir, os esforços dos profissionais médicos por meio de um sistema interativo. O ScribblePrompt é um modelo simples com eficiência para ajudar os médicos a se concentrarem nas partes mais interessantes de suas análises. É mais rápido e preciso do que métodos de segmentação interativa comparáveis, reduzindo o tempo de anotação em 28 por cento em comparação com a estrutura Section Something Mannequin (SAM) da Meta, por exemplo.”
A interface do ScribblePrompt é simples: os usuários podem rabiscar na área áspera que gostariam de segmentar, ou clicar nela, e a ferramenta destacará toda a estrutura ou plano de fundo, conforme solicitado. Por exemplo, você pode clicar em veias individuais dentro de uma varredura da retina (olho). O ScribblePrompt também pode marcar uma estrutura dada uma caixa delimitadora.
Então, a ferramenta pode fazer correções com base no suggestions do usuário. Se você quisesse destacar um rim em um ultrassom, você poderia usar uma caixa delimitadora e então rabiscar partes adicionais da estrutura se o ScribblePrompt perdesse alguma borda. Se você quisesse editar seu segmento, você poderia usar um “rabisco negativo” para excluir certas regiões.
Essas capacidades interativas e autocorretivas fizeram do ScribblePrompt a ferramenta preferida entre os pesquisadores de neuroimagem do MGH em um estudo de usuário. 93,8 por cento desses usuários favoreceram a abordagem do MIT em relação à linha de base do SAM na melhoria de seus segmentos em resposta às correções de rabiscos. Quanto às edições baseadas em cliques, 87,5 por cento dos pesquisadores médicos preferiram o ScribblePrompt.
O ScribblePrompt foi treinado em rabiscos e cliques simulados em 54.000 imagens em 65 conjuntos de dados, apresentando escaneamentos dos olhos, tórax, coluna, células, pele, músculos abdominais, pescoço, cérebro, ossos, dentes e lesões. O modelo se familiarizou com 16 tipos de imagens médicas, incluindo microscopias, tomografias computadorizadas, raios X, ressonâncias magnéticas, ultrassons e fotografias.
“Muitos métodos existentes não respondem bem quando os usuários rabiscam imagens porque é difícil simular tais interações no treinamento. Para o ScribblePrompt, conseguimos forçar nosso modelo a prestar atenção a diferentes entradas usando nossas tarefas de segmentação sintética”, diz Wong. “Queríamos treinar o que é essencialmente um modelo de base em muitos dados diversos para que ele fosse generalizado para novos tipos de imagens e tarefas.”
Depois de coletar tantos dados, a equipe avaliou o ScribblePrompt em 12 novos conjuntos de dados. Embora não tivesse visto essas imagens antes, ele superou quatro métodos existentes ao segmentar de forma mais eficiente e fornecer previsões mais precisas sobre as regiões exatas que os usuários queriam destacar.
“A segmentação é a tarefa de análise de imagem biomédica mais prevalente, realizada amplamente tanto na prática clínica de rotina quanto na pesquisa — o que a torna muito diversa e uma etapa essential e impactante”, diz o autor sênior Adrian Dalca SM ’12, PhD ’16, cientista pesquisador do CSAIL e professor assistente no MGH e na Harvard Medical Faculty. “O ScribblePrompt foi cuidadosamente projetado para ser praticamente útil para clínicos e pesquisadores e, portanto, para tornar essa etapa muito, muito mais rápida.”
“A maioria dos algoritmos de segmentação que foram desenvolvidos em análise de imagem e aprendizado de máquina são, pelo menos até certo ponto, baseados em nossa capacidade de anotar imagens manualmente”, diz o professor de radiologia da Harvard Medical Faculty e neurocientista do MGH Bruce Fischl, que não estava envolvido no artigo. “O problema é dramaticamente pior em imagens médicas, nas quais nossas ‘imagens’ são tipicamente volumes 3D, já que os seres humanos não têm nenhuma razão evolutiva ou fenomenológica para ter qualquer competência em anotar imagens 3D. O ScribblePrompt permite que a anotação guide seja realizada muito, muito mais rápido e com mais precisão, treinando uma rede precisamente nos tipos de interações que um humano normalmente teria com uma imagem ao anotar manualmente. O resultado é uma interface intuitiva que permite que os anotadores interajam naturalmente com dados de imagem com muito mais produtividade do que period possível anteriormente.”
Wong e Dalca escreveram o artigo com dois outros afiliados do CSAIL: John Guttag, o Professor Dugald C. Jackson de EECS no MIT e pesquisador principal do CSAIL; e a estudante de doutorado do MIT Marianne Rakic SM ’22. O trabalho deles foi apoiado, em parte, pela Quanta Pc Inc., o Eric and Wendy Schmidt Middle no Broad Institute, a Wistron Corp. e o Nationwide Institute of Biomedical Imaging and Bioengineering do Nationwide Institutes of Well being, com suporte de {hardware} do Massachusetts Life Sciences Middle.
O trabalho de Wong e seus colegas será apresentado na Conferência Europeia de Visão Computacional de 2024 e foi apresentado como uma palestra oral no workshop DCAMI na Pc Imaginative and prescient and Sample Recognition Convention no início deste ano. Eles receberam o prêmio Bench-to-Bedside Paper no workshop pelo potencial impacto clínico do ScribblePrompt.