
Para que serve a privacidade do paciente? O Juramento de Hipócrates, considerado um dos primeiros e mais conhecidos textos de ética médica no mundo, diz: “Tudo o que vejo ou ouço na vida dos meus pacientes, seja em conexão com a minha prática profissional ou não, que não deve ser falado fora, manterei segredo, pois considero todas essas coisas como privadas.”
À medida que a privacidade se torna cada vez mais escassa na period dos algoritmos que consomem muitos dados e dos ataques cibernéticos, a medicina é um dos poucos domínios restantes onde a confidencialidade continua a ser elementary para a prática, permitindo aos pacientes confiar aos seus médicos informações sensíveis.
Mas um papel em coautoria com pesquisadores do MIT, investiga como modelos de inteligência synthetic treinados em registros eletrônicos de saúde (EHRs) desidentificados podem memorizar informações específicas do paciente. O trabalho, que foi recentemente apresentado na Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS) de 2025, recomenda uma configuração de testes rigorosa para garantir que os avisos direcionados não possam revelar informações, enfatizando que a fuga deve ser avaliada num contexto de cuidados de saúde para determinar se compromete significativamente a privacidade do paciente.
Os modelos básicos treinados em EHRs normalmente deveriam generalizar o conhecimento para fazer melhores previsões, baseando-se em muitos registros de pacientes. Mas na “memorização”, o modelo baseia-se num registo único do paciente para entregar o seu resultado, violando potencialmente a privacidade do paciente. Notavelmente, os modelos de fundação já são conhecidos por serem propenso a vazamento de dados.
“O conhecimento sobre esses modelos de alta capacidade pode ser um recurso para muitas comunidades, mas os invasores adversários podem solicitar um modelo para extrair informações sobre dados de treinamento”, diz Sana Tonekaboni, pós-doutorada no Eric and Wendy Schmidt Middle do Broad Institute do MIT e Harvard e primeira autora do artigo. Dado o risco de que os modelos de fundação também possam memorizar dados privados, observa ela, “este trabalho é um passo no sentido de garantir que existem medidas práticas de avaliação que a nossa comunidade pode tomar antes de lançar modelos”.
Para conduzir pesquisas sobre o risco potencial que os modelos básicos de EHR poderiam representar na medicina, Tonekaboni abordou o professor associado do MIT Marzyeh Ghassemique é investigador principal do Clínica Abdul Latif Jameel para aprendizado de máquina em saúde (Jameel Clinic), membro do Laboratório de Ciência da Computação e Inteligência Synthetic. Ghassemi, membro do corpo docente do Departamento de Engenharia Elétrica e Ciência da Computação do MIT e do Instituto de Engenharia Médica e Ciência, dirige o Grupo de ML saudávelque se concentra no aprendizado de máquina robusto na saúde.
De quanta informação um malfeitor precisa para expor dados confidenciais e quais são os riscos associados às informações vazadas? Para avaliar isto, a equipa de investigação desenvolveu uma série de testes que esperam que estabeleçam as bases para futuras avaliações de privacidade. Esses testes são projetados para medir vários tipos de incerteza e avaliar seu risco prático para os pacientes, medindo vários níveis de possibilidade de ataque.
“Nós realmente tentamos enfatizar a praticidade aqui; se um invasor precisa saber a knowledge e o valor de uma dúzia de testes laboratoriais do seu registro para extrair informações, há muito pouco risco de danos. Se eu já tenho acesso a esse nível de dados de origem protegidos, por que precisaria atacar um modelo de base grande para obter mais?” diz Ghassemi.
Com a inevitável digitalização dos registos médicos, as violações de dados tornaram-se mais comuns. Nos últimos 24 meses, o Departamento de Saúde e Serviços Humanos dos EUA registou 747 violações de dados de informações de saúde que afetam mais de 500 indivíduos, sendo a maioria categorizada como incidentes de hacking/TI.
Pacientes com condições únicas são especialmente vulneráveis, dada a facilidade de identificá-los. “Mesmo com dados anonimizados, isso depende do tipo de informação que você vaza sobre o indivíduo”, diz Tonekaboni. “Depois de identificá-los, você saberá muito mais.”
Em seus testes estruturados, os pesquisadores descobriram que quanto mais informações o invasor tiver sobre um determinado paciente, maior será a probabilidade de o modelo vazar informações. Eles demonstraram como distinguir casos de generalização de modelos de memorização em nível de paciente, para avaliar adequadamente o risco de privacidade.
O documento também enfatizou que alguns vazamentos são mais prejudiciais que outros. Por exemplo, um modelo que revela a idade ou os dados demográficos de um paciente pode ser caracterizado como uma fuga mais benigna do que o modelo que revela informações mais sensíveis, como um diagnóstico de VIH ou abuso de álcool.
Os investigadores observam que os pacientes com doenças únicas são especialmente vulneráveis dada a facilidade de identificá-los, o que pode exigir níveis mais elevados de proteção. “Mesmo com dados anonimizados, isso realmente depende do tipo de informação que você vaza sobre o indivíduo”, diz Tonekaboni. Os pesquisadores planejam expandir o trabalho para se tornar mais interdisciplinar, agregando médicos e especialistas em privacidade, bem como especialistas jurídicos.
“Há uma razão pela qual os nossos dados de saúde são privados”, diz Tonekaboni. “Não há razão para que outros saibam disso.”
Este trabalho é apoiado pelo Eric e Wendy Schmidt Middle do Broad Institute do MIT e Harvard, Wallenberg AI, Knut e Alice Wallenberg Basis, US Nationwide Science Basis (NSF), um prêmio da Gordon and Betty Moore Basis, um prêmio Google Analysis Scholar e o Programa AI2050 da Schmidt Sciences. Os recursos utilizados na preparação desta pesquisa foram fornecidos, em parte, pela Província de Ontário, pelo Governo do Canadá através do CIFAR e pelas empresas que patrocinam o Vector Institute.