Pesquisadores vislumbram o funcionamento interno dos modelos de linguagem de proteínas | MIT Information



Pesquisadores vislumbram o funcionamento interno dos modelos de linguagem de proteínas | MIT Information

Nos últimos anos, modelos que podem prever a estrutura ou função das proteínas têm sido amplamente utilizados para uma variedade de aplicações biológicas, como identificar alvos de medicamentos e projetar novos anticorpos terapêuticos.

Esses modelos, baseados em grandes modelos de idiomas (LLMs), podem fazer previsões muito precisas de adequação de uma proteína para uma determinada aplicação. No entanto, não há como determinar como esses modelos fazem suas previsões ou quais características de proteína desempenham o papel mais importante nessas decisões.

Em um novo estudo, os pesquisadores do MIT usaram uma nova técnica para abrir essa “caixa preta” e permitir que eles determinem quais recursos um modelo de linguagem de proteínas leva em consideração ao fazer previsões. Entender o que está acontecendo dentro dessa caixa preta pode ajudar os pesquisadores a escolher modelos melhores para uma tarefa específica, ajudando a otimizar o processo de identificação de novos medicamentos ou alvos de vacinas.

“Nosso trabalho tem amplas implicações para explicar aprimorabilidade em tarefas a jusante que dependem dessas representações”, diz Bonnie Berger, professor de matemática de Simons, chefe do Grupo de Computação e Biologia do Laboratório de Ciência da Computação e Ciência da Computação do MIT e autor sênior do estudo. “Além disso, a identificação de recursos que os modelos de linguagem de proteínas rastreiam tem o potencial de revelar novas idéias biológicas dessas representações”.

Onkar Gujral, um estudante de pós-graduação do MIT, é o principal autor do acesso aberto estudarque aparece nesta semana no Anais da Academia Nacional de Ciências. Mihir Bafna, um estudante de pós -graduação do MIT em engenharia elétrica e ciência da computação, e Eric Alm, professor de engenharia biológica do MIT, também são autores do artigo.

Abrindo a caixa preta

Em 2018, Berger e o ex -aluno do MIT Tristan Bepler PhD ’20 introduzido o primeiro modelo de linguagem de proteínas. Seu modelo, como modelos de proteínas subsequentes que aceleraram o desenvolvimento de alfafold, como ESM2 e ômegafold, foram baseados no LLMS. Esses modelos, que incluem ChatGPT, podem analisar grandes quantidades de texto e descobrir quais palavras têm maior probabilidade de aparecer juntas.

Os modelos de linguagem de proteínas usam uma abordagem semelhante, mas, em vez de analisar palavras, eles analisam sequências de aminoácidos. Os pesquisadores usaram esses modelos para prever a estrutura e a função das proteínas e para aplicações como a identificação de proteínas que podem se ligar a medicamentos específicos.

Em um 2021 EstudoBerger e colegas usaram um modelo de linguagem de proteínas para prever quais seções de proteínas da superfície viral têm menos probabilidade de mudar de maneira que permita a fuga viral. Isso lhes permitiu identificar possíveis alvos para vacinas contra influenza, HIV e SARS-CoV-2.

No entanto, em todos esses estudos, foi impossível saber como os modelos estavam fazendo suas previsões.

“Nós teríamos alguma previsão no last, mas não tínhamos absolutamente nenhuma idéia do que estava acontecendo nos componentes individuais dessa caixa preta”, diz Berger.

No novo estudo, os pesquisadores queriam se aprofundar em como os modelos de linguagem de proteínas fazem suas previsões. Assim como o LLMS, os modelos de linguagem de proteínas codificam informações como representações que consistem em um padrão de ativação de diferentes “nós” dentro de uma rede neural. Esses nós são análogos às redes de neurônios que armazenam memórias e outras informações dentro do cérebro.

O funcionamento interno do LLMS não é fácil de interpretar, mas nos últimos dois anos, os pesquisadores começaram a usar um tipo de algoritmo conhecido como autoencoder esparso para ajudar a esclarecer como esses modelos fazem suas previsões. O novo estudo do Berger’s Lab é o primeiro a usar esse algoritmo nos modelos de linguagem de proteínas.

Os autoencodentes esparsos funcionam ajustando como uma proteína é representada em uma rede neural. Normalmente, uma determinada proteína será representada por um padrão de ativação de um número restrito de neurônios, por exemplo, 480. Um autoencoder esparso expandirá essa representação para um número muito maior de nós, digamos 20.000.

Quando as informações sobre uma proteína são codificadas por apenas 480 neurônios, cada nó acende para vários recursos, tornando muito difícil saber quais recursos cada nó está codificando. No entanto, quando a rede neural é expandida para 20.000 nós, esse espaço additional, juntamente com uma restrição de esparsidade, fornece a sala de informações para “se espalhar”. Agora, uma característica da proteína que foi codificada anteriormente por vários nós pode ocupar um único nó.

“Em uma representação escassa, os neurônios iluminando o fazem de uma maneira mais significativa”, diz Gujral. “Antes que as representações escassas sejam criadas, as redes embalam informações tão firmemente juntas que é difícil interpretar os neurônios”.

Modelos interpretáveis

Depois que os pesquisadores obtiveram representações esparsas de muitas proteínas, eles usaram um assistente de IA chamado Claude (relacionado ao widespread chatbot antrópico de mesmo nome), para analisar as representações. Nesse caso, eles pediram a Claude que comparasse as representações escassas com as características conhecidas de cada proteína, como função molecular, família de proteínas ou localização dentro de uma célula.

Ao analisar milhares de representações, Claude pode determinar quais nós correspondem a recursos específicos de proteínas e depois descrevê -los em inglês simples. Por exemplo, o algoritmo pode dizer: “Esse neurônio parece estar detectando proteínas envolvidas no transporte transmembranar de íons ou aminoácidos, particularmente aqueles localizados na membrana plasmática”.

Esse processo torna os nós muito mais “interpretáveis”, o que significa que os pesquisadores podem dizer o que cada nó está codificando. Eles descobriram que as características com maior probabilidade de serem codificadas por esses nós eram da família de proteínas e certas funções, incluindo vários processos metabólicos e biossintéticos diferentes.

“Quando você treina um autoencoder esparso, não está treinando para ser interpretável, mas acontece que, incentivando a representação a ser realmente escassa, que acaba resultando em interpretabilidade”, diz Gujral.

Entender o que os recursos de um modelo de proteína específico está codificando pode ajudar os pesquisadores a escolher o modelo certo para uma tarefa específica ou ajustar o tipo de entrada que fornecem ao modelo, para gerar os melhores resultados. Além disso, a análise dos recursos que um modelo codifica poderia um dia ajudar os biólogos a aprender mais sobre as proteínas que estão estudando.

“Em algum momento em que os modelos ficam muito mais poderosos, você pode aprender mais biologia do que você já sabe, ao abrir os modelos”, diz Gujral.

A pesquisa foi financiada pelos Institutos Nacionais de Saúde.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *