Os cientistas do MIT têm lançado um poderoso modelo de IA de código aberto, chamado Boltz-1, que poderia acelerar significativamente a pesquisa biomédica e o desenvolvimento de medicamentos.
Desenvolvido por uma equipe de pesquisadores da Clínica Jameel do MIT para Aprendizado de Máquina em Saúde, o Boltz-1 é o primeiro modelo totalmente de código aberto que atinge desempenho de última geração no nível do AlphaFold3, o modelo do Google DeepMind que prevê as estruturas 3D de proteínas e outras moléculas biológicas.
Os alunos de pós-graduação do MIT Jeremy Wohlwend e Gabriele Corso foram os principais desenvolvedores do Boltz-1, junto com Saro Passaro, afiliado de pesquisa da Clínica Jameel do MIT, e os professores de engenharia elétrica e ciência da computação do MIT Regina Barzilay e Tommi Jaakkola. Wohlwend e Corso apresentaram o modelo em um evento em 5 de dezembro no Stata Middle do MIT, onde disseram que seu objetivo closing é promover a colaboração international, acelerar descobertas e fornecer uma plataforma robusta para o avanço da modelagem biomolecular.
“Esperamos que este seja um ponto de partida para a comunidade”, disse Corso. “Há uma razão pela qual o chamamos de Boltz-1 e não de Boltz. Este não é o fim da linha. Queremos o máximo de contribuição possível da comunidade.”
As proteínas desempenham um papel essencial em quase todos os processos biológicos. A forma de uma proteína está intimamente ligada à sua função, portanto, compreender a estrutura de uma proteína é elementary para projetar novos medicamentos ou desenvolver novas proteínas com funcionalidades específicas. Mas devido ao processo extremamente complexo pelo qual a longa cadeia de aminoácidos de uma proteína é dobrada numa estrutura 3D, prever com precisão essa estrutura tem sido um grande desafio durante décadas.
O AlphaFold2 da DeepMind, que rendeu a Demis Hassabis e John Jumper o Prêmio Nobel de Química de 2024, usa aprendizado de máquina para prever rapidamente estruturas de proteínas 3D que são tão precisas que são indistinguíveis daquelas derivadas experimentalmente por cientistas. Este modelo de código aberto tem sido usado por equipes de pesquisa acadêmica e comercial em todo o mundo, estimulando muitos avanços no desenvolvimento de medicamentos.
AlphaFold3 melhora seus antecessores ao incorporar um modelo generativo de IA, conhecido como modelo de difusão, que pode lidar melhor com a quantidade de incerteza envolvida na previsão de estruturas proteicas extremamente complexas. Ao contrário do AlphaFold2, no entanto, o AlphaFold3 não é totalmente de código aberto, nem está disponível para uso comercial, o que levou crítica da comunidade científica e deu início a um corrida international para construir uma versão comercialmente disponível do modelo.
Para o seu trabalho no Boltz-1, os investigadores do MIT seguiram a mesma abordagem inicial do AlphaFold3, mas depois de estudarem o modelo de difusão subjacente, exploraram potenciais melhorias. Eles incorporaram aqueles que mais aumentaram a precisão do modelo, como novos algoritmos que melhoram a eficiência da previsão.
Junto com o modelo em si, eles abriram todo o pipeline para treinamento e ajuste fino para que outros cientistas possam desenvolver o Boltz-1.
“Estou imensamente orgulhoso de Jeremy, Gabriele, Saro e do restante da equipe da Clínica Jameel por fazerem esse lançamento acontecer. Este projeto exigiu muitos dias e noites de trabalho, com uma determinação inabalável para chegar a este ponto. Há muitas ideias interessantes para melhorias futuras e esperamos compartilhá-las nos próximos meses”, afirma Barzilay.
A equipe do MIT levou quatro meses de trabalho e muitos experimentos para desenvolver o Boltz-1. Um dos seus maiores desafios foi superar a ambiguidade e a heterogeneidade contidas no Protein Knowledge Financial institution, uma coleção de todas as estruturas biomoleculares que milhares de biólogos resolveram nos últimos 70 anos.
“Tive muitas noites longas lutando com esses dados. Muito disso é puro conhecimento de domínio que basta adquirir. Não existem atalhos”, diz Wohlwend.
No closing, seus experimentos mostram que o Boltz-1 atinge o mesmo nível de precisão que o AlphaFold3 em um conjunto diversificado de previsões complexas de estruturas biomoleculares.
“O que Jeremy, Gabriele e Saro realizaram é simplesmente notável. Seu trabalho árduo e persistência neste projeto tornaram a previsão da estrutura biomolecular mais acessível à comunidade em geral”, diz Jaakkola.
Os pesquisadores planejam continuar melhorando o desempenho do Boltz-1 e reduzir o tempo necessário para fazer previsões. Eles também convidam pesquisadores a experimentar o Boltz-1 em seus Repositório GitHub e conecte-se com outros usuários do Boltz-1 em seus Canal Slack.
“Achamos que ainda há muitos e muitos anos de trabalho para melhorar esses modelos. Estamos muito ansiosos para colaborar com outras pessoas e ver o que a comunidade faz com esta ferramenta”, acrescenta Wohlwend.
Mathai Mammen, CEO e presidente da Parabilis Medicines, chama o Boltz-1 de um modelo “inovador”. “Ao abrir o código-fonte desse avanço, a Clínica Jameel do MIT e seus colaboradores estão democratizando o acesso a ferramentas de biologia estrutural de ponta”, diz ele. “Este esforço histórico irá acelerar a criação de medicamentos que mudam vidas. Obrigado à equipe Boltz-1 por impulsionar este profundo salto em frente!”
“O Boltz-1 será extremamente capacitador para o meu laboratório e para toda a comunidade”, acrescenta Jonathan Weissman, professor de biologia do MIT e membro do Instituto Whitehead de Engenharia Biomédica que não esteve envolvido no estudo. “Veremos toda uma onda de descobertas possibilitadas pela democratização desta ferramenta poderosa.” Weissman acrescenta que prevê que a natureza de código aberto do Boltz-1 levará a uma vasta gama de novas aplicações criativas.
Este trabalho também foi apoiado por uma bolsa da US Nationwide Science Basis Expeditions; a Clínica Jameel; o programa de Descoberta de Contramedidas Médicas Contra Ameaças Novas e Emergentes (DOMANE) da Agência de Redução de Ameaças de Defesa dos EUA; e o projeto MATCHMAKERS apoiado pela parceria Most cancers Grand Challenges, financiado pela Most cancers Analysis UK e pelo US Nationwide Most cancers Institute.