Ao adaptar modelos de inteligência synthetic conhecidos como modelos de linguagem grande, os investigadores fizeram grandes progressos na sua capacidade de prever a estrutura de uma proteína a partir da sua sequência. No entanto, esta abordagem não tem sido tão bem sucedida para os anticorpos, em parte devido à hipervariabilidade observada neste tipo de proteína.
Para superar essa limitação, os pesquisadores do MIT desenvolveram uma técnica computacional que permite que grandes modelos de linguagem prevejam estruturas de anticorpos com mais precisão. O seu trabalho poderia permitir aos investigadores analisar milhões de possíveis anticorpos para identificar aqueles que poderiam ser usados para tratar o SARS-CoV-2 e outras doenças infecciosas.
“Nosso método nos permite escalar, enquanto outros não, ao ponto em que podemos realmente encontrar algumas agulhas no palheiro”, diz Bonnie Berger, professora de matemática da Simons, chefe do grupo de Computação e Biologia do Departamento de Computação do MIT. Laboratório de Ciência e Inteligência Synthetic (CSAIL) e um dos autores seniores do novo estudo. “Se pudéssemos ajudar a impedir que as empresas farmacêuticas iniciassem ensaios clínicos com a coisa errada, isso realmente pouparia muito dinheiro.”
A técnica, que se concentra na modelagem de regiões hipervariáveis de anticorpos, também tem potencial para analisar repertórios completos de anticorpos de pessoas individuais. Isto pode ser útil para estudar a resposta imunitária de pessoas que respondem tremendous a doenças como o VIH, para ajudar a descobrir porque é que os seus anticorpos combatem o vírus de forma tão eficaz.
Bryan Bryson, professor associado de engenharia biológica no MIT e membro do Ragon Institute do MGH, MIT e Harvard, também é autor sênior do artigo, que aparece esta semana no Anais da Academia Nacional de Ciências. Rohit Singh, um ex-cientista pesquisador do CSAIL que agora é professor assistente de bioestatística, bioinformática e biologia celular na Duke College, e Chiho Im ’22 são os principais autores do artigo. Pesquisadores da Sanofi e da ETH Zurich também contribuíram para a pesquisa.
Modelando hipervariabilidade
As proteínas consistem em longas cadeias de aminoácidos, que podem se dobrar em um enorme número de estruturas possíveis. Nos últimos anos, prever essas estruturas tornou-se muito mais fácil de fazer, usando programas de inteligência synthetic como o AlphaFold. Muitos destes programas, como o ESMFold e o OmegaFold, baseiam-se em grandes modelos de linguagem, que foram originalmente desenvolvidos para analisar grandes quantidades de texto, permitindo-lhes aprender a prever a próxima palavra numa sequência. Esta mesma abordagem pode funcionar para sequências de proteínas – aprendendo quais estruturas proteicas têm maior probabilidade de serem formadas a partir de diferentes padrões de aminoácidos.
No entanto, esta técnica nem sempre funciona em anticorpos, especialmente num segmento do anticorpo conhecido como região hipervariável. Os anticorpos geralmente têm uma estrutura em forma de Y, e essas regiões hipervariáveis estão localizadas nas pontas do Y, onde detectam e se ligam a proteínas estranhas, também conhecidas como antígenos. A parte inferior do Y fornece suporte estrutural e ajuda os anticorpos a interagir com as células do sistema imunológico.
As regiões hipervariáveis variam em comprimento, mas geralmente contêm menos de 40 aminoácidos. Foi estimado que o sistema imunitário humano pode produzir até 1 quintilhão de anticorpos diferentes, alterando a sequência destes aminoácidos, ajudando a garantir que o corpo possa responder a uma enorme variedade de potenciais antigénios. Essas sequências não são evolutivamente restritas da mesma forma que outras sequências de proteínas, por isso é difícil para grandes modelos de linguagem aprenderem a prever suas estruturas com precisão.
“Parte da razão pela qual os modelos de linguagem podem prever bem a estrutura das proteínas é que a evolução restringe essas sequências de uma forma que o modelo pode decifrar o que essas restrições significariam”, diz Singh. “É semelhante a aprender as regras gramaticais observando o contexto das palavras em uma frase, permitindo descobrir o que isso significa.”
Para modelar essas regiões hipervariáveis, os pesquisadores criaram dois módulos que se baseiam em modelos de linguagem de proteínas existentes. Um desses módulos foi treinado em sequências hipervariáveis de cerca de 3.000 estruturas de anticorpos encontradas no Protein Information Financial institution (PDB), permitindo aprender quais sequências tendem a gerar estruturas semelhantes. O outro módulo foi treinado em dados que correlacionam cerca de 3.700 sequências de anticorpos com a força com que se ligam a três antígenos diferentes.
O modelo computacional resultante, conhecido como AbMap, pode prever estruturas de anticorpos e força de ligação com base em suas sequências de aminoácidos. Para demonstrar a utilidade deste modelo, os investigadores usaram-no para prever estruturas de anticorpos que neutralizariam fortemente a proteína spike do vírus SARS-CoV-2.
Os pesquisadores começaram com um conjunto de anticorpos que se previa que se ligassem a esse alvo e depois geraram milhões de variantes alterando as regiões hipervariáveis. Seu modelo foi capaz de identificar estruturas de anticorpos que seriam mais bem-sucedidas, com muito mais precisão do que os modelos tradicionais de estrutura de proteínas baseados em grandes modelos de linguagem.
Em seguida, os pesquisadores deram o passo adicional de agrupar os anticorpos em grupos que tinham estruturas semelhantes. Eles escolheram anticorpos de cada um desses grupos para testar experimentalmente, trabalhando com pesquisadores da Sanofi. Esses experimentos descobriram que 82% desses anticorpos tinham melhor força de ligação do que os anticorpos originais incluídos no modelo.
Identificar uma variedade de bons candidatos no início do processo de desenvolvimento poderia ajudar as empresas farmacêuticas a evitar gastar muito dinheiro em testes de candidatos que acabam falhando mais tarde, dizem os pesquisadores.
“Eles não querem colocar todos os ovos na mesma cesta”, diz Singh. “Eles não querem dizer: vou pegar esse anticorpo e submetê-lo a testes pré-clínicos, e então ele se revela tóxico. Eles preferem ter um conjunto de boas possibilidades e avançar com todas elas, para que tenham algumas escolhas caso alguma dê errado.”
Comparando anticorpos
Usando esta técnica, os pesquisadores também poderiam tentar responder a algumas questões antigas sobre por que diferentes pessoas respondem à infecção de maneira diferente. Por exemplo, porque é que algumas pessoas desenvolvem formas muito mais graves de Covid e porque é que algumas pessoas expostas ao VIH nunca são infectadas?
Os cientistas têm tentado responder a essas perguntas realizando sequenciamento de RNA unicelular de células imunológicas de indivíduos e comparando-as – um processo conhecido como análise de repertório de anticorpos. Trabalhos anteriores mostraram que os repertórios de anticorpos de duas pessoas diferentes podem sobrepor-se em apenas 10%. No entanto, a sequenciação não oferece uma imagem tão abrangente do desempenho dos anticorpos como a informação estrutural, porque dois anticorpos que têm sequências diferentes podem ter estruturas e funções semelhantes.
O novo modelo pode ajudar a resolver esse problema ao gerar rapidamente estruturas para todos os anticorpos encontrados num indivíduo. Neste estudo, os pesquisadores mostraram que quando a estrutura é levada em conta, há muito mais sobreposição entre os indivíduos do que os 10% observados nas comparações de sequências. Eles agora planejam investigar mais a fundo como essas estruturas podem contribuir para a resposta imunológica geral do corpo contra um patógeno específico.
“É aqui que um modelo de linguagem se encaixa perfeitamente porque tem a escalabilidade da análise baseada em sequência, mas se aproxima da precisão da análise baseada em estrutura”, diz Singh.
A pesquisa foi financiada pela Sanofi e pela Clínica Abdul Latif Jameel para Aprendizado de Máquina em Saúde.