Xadrez é um modelo generativo multimodal que gera simultaneamente a sequência de proteínas 1D e a estrutura 3D, aprendendo o espaço latente dos modelos de dobragem de proteínas.
A concessão do 2024 Prêmio Nobel A Alphafold2 marca um momento importante de reconhecimento para o papel da IA na biologia. O que vem a seguir após a dobragem de proteínas?
Em Xadrezdesenvolvemos um método que aprende a provar do espaço latente de modelos de dobragem de proteínas para gerar novas proteínas. Pode aceitar Função de composição e solicitações de organismoe pode ser Treinado em bancos de dados de sequênciaque são 2-4 ordens de magnitude maiores que os bancos de dados de estrutura. Ao contrário de muitos modelos generativos anteriores da estrutura da proteína, a configuração de problemas de co-geração multimodal: gerando simultaneamente a sequência discreta e as coordenadas estruturais contínuas de todos os átomos.
Da previsão da estrutura ao design de medicamentos do mundo actual
Embora os trabalhos recentes demonstrem promessa para a capacidade dos modelos de difusão de gerar proteínas, ainda existem limitações de modelos anteriores que os tornam impraticáveis para aplicações do mundo actual, como:
- Geração de todos os átomos: Muitos modelos generativos existentes produzem apenas os átomos da espinha dorsal. Para produzir a estrutura de todos os átomos e colocar os átomos de seca lateral, precisamos conhecer a sequência. Isso cria um problema de geração multimodal que requer geração simultânea de modalidades discretas e contínuas.
- Especificidade do organismo: Proteínas biológicas destinadas ao uso humano precisam ser humanizadopara evitar ser destruído pelo sistema imunológico humano.
- Especificação de controle: A descoberta de medicamentos e colocá -lo nas mãos dos pacientes é um processo complexo. Como podemos especificar essas restrições complexas? Por exemplo, mesmo após a abordagem da biologia, você pode decidir que os tablets são mais fáceis de transportar do que os frascos, adicionando uma nova restrição à soluabilidade.
Gerando proteínas “úteis”
Simplesmente gerar proteínas não é tão útil quanto controle a geração para obter útil proteínas. Como seria uma interface para isso?
Para inspiração, vamos considerar como controlaríamos a geração de imagens por meio de avisos textuais de composição (exemplo de Liu et al., 2022).
Em xadrez, refletimos esta interface para Especificação de controle. O objetivo ultimate é controlar inteiramente a geração por meio de uma interface textual, mas aqui consideramos restrições de composição para dois eixos como uma prova de conceito: função e organismo:
Aprendendo a conexão de sequência de estrutura de função. A xadrez aprende a tetraédrica cisteína-fe-fe2+/Fe3+ O padrão de coordenação geralmente encontrado nas metaloproteínas, mantendo a alta diversidade no nível da sequência.
Treinamento usando dados de treinamento somente de sequência
Outro aspecto importante do modelo xadrez é que exigimos apenas sequências para treinar o modelo generativo! Os modelos generativos aprendem a distribuição de dados definida por seus dados de treinamento, e os bancos de dados de sequência são consideravelmente maiores que os estruturais, pois as sequências são muito mais baratas para obter do que a estrutura experimental.
Aprendendo com um banco de dados maior e mais amplo. O custo da obtenção de sequências de proteínas é muito menor do que a estrutura de caracterização experimental, e os bancos de dados de sequência são 2-4 ordens de magnitude maiores que as estruturais.
Como funciona?
A razão pela qual somos capazes de treinar o modelo generativo para gerar estrutura apenas usando dados de sequência é aprendendo um modelo de difusão sobre o Espaço latente de um modelo de dobragem de proteínas. Então, durante a inferência, após a amostragem deste espaço latente de proteínas válidas, podemos levar pesos congelados Do modelo de dobramento de proteínas para decodificar a estrutura. Aqui, nós usamos Esmfoldum sucessor do modelo alphafold2 que substitui uma etapa de recuperação por um modelo de linguagem de proteínas.
Nosso método. Durante o treinamento, apenas sequências são necessárias para obter a incorporação; Durante a inferência, podemos decodificar sequência e estrutura da incorporação amostrada. ❄️ denota pesos congelados.
Dessa forma, podemos usar informações de entendimento estrutural nos pesos de modelos de dobragem de proteínas pré -teremia para a tarefa de design de proteínas. Isso é análogo a como os modelos de ação de linguagem de visão (VLA) na robótica usam os anteriores contidos em modelos de linguagem de visão (VLMS) treinados em dados em escala da Web para suprir a percepção e o raciocínio e a compreensão das informações.
Comprimindo o espaço latente dos modelos de dobramento de proteínas
Uma pequena ruga com aplicação diretamente desse método é que o espaço latente do ESMFold-de fato, o espaço latente de muitos modelos baseados em transformadores-requer muita regularização. Esse espaço também é muito grande; portanto, aprender essa incorporação acaba mapeando para a síntese de imagem de alta resolução.
Para abordar isso, também propomos BARATO (Adaptações de proteínas com ampulheta compactada) incorporando)onde aprendemos um modelo de compressão para a incorporação articular da sequência e estrutura de proteínas.
Investigando o espaço latente. (A) Quando visualizamos o valor médio para cada canal, alguns canais exibem “ativações maciças”. (B) Se começarmos a examinar as 3 principais ativações em comparação com o valor mediano (cinza), descobrimos que isso acontece em muitas camadas. (C) Ativações maciças também foram observadas para outros modelos baseados em transformadores.
Descobrimos que esse espaço latente é realmente altamente compressível. Ao fazer um pouco de interpretabilidade mecanicista para entender melhor o modelo básico com o qual estamos trabalhando, conseguimos criar um modelo generativo de proteínas de átomo.
O que vem a seguir?
Embora examinemos o caso de sequência de proteínas e geração de estrutura neste trabalho, podemos adaptar esse método para realizar geração multimodal para quaisquer modalidades em que exista um preditor de uma modalidade mais abundante a uma menos abundante. Como os preditores de sequência para estrutura para proteínas estão começando a enfrentar sistemas cada vez mais complexos (por exemplo, o alphafold3 também é capaz de prever proteínas em complexos com ácidos nucleicos e ligantes moleculares), é fácil imaginar realizar geração multimodal em sistemas mais complexos usando o mesmo método. Se você estiver interessado em colaborar para estender nosso método ou testar nosso método no laboratório úmido, entre em contato!
Outros hyperlinks
Se você achou nossos trabalhos úteis em sua pesquisa, considere usar o seguinte Bibtex para xadrez e barato:
@article{lu2024generating,
title={Producing All-Atom Protein Construction from Sequence-Solely Coaching Knowledge},
writer={Lu, Amy X and Yan, Wilson and Robinson, Sarah A and Yang, Kevin Ok and Gligorijevic, Vladimir and Cho, Kyunghyun and Bonneau, Richard and Abbeel, Pieter and Frey, Nathan},
journal={bioRxiv},
pages={2024--12},
yr={2024},
writer={Chilly Spring Harbor Laboratory}
}
@article{lu2024tokenized,
title={Tokenized and Steady Embedding Compressions of Protein Sequence and Construction},
writer={Lu, Amy X and Yan, Wilson and Yang, Kevin Ok and Gligorijevic, Vladimir and Cho, Kyunghyun and Abbeel, Pieter and Bonneau, Richard and Frey, Nathan},
journal={bioRxiv},
pages={2024--08},
yr={2024},
writer={Chilly Spring Harbor Laboratory}
}
Você também pode verificar nossas pré -impressões (XadrezAssim, BARATO) e bases de código (XadrezAssim, BARATO).
Alguma diversão de geração de proteínas de bônus!
Gerações adicionais promovidas à função com xadrez.
Geração incondicional com xadrez.
As proteínas transmembranares têm resíduos hidrofóbicos no núcleo, onde é incorporado na camada de ácidos graxos. Estes são consistentemente observados ao solicitar xadrez com palavras -chave da proteína transmembranar.
Exemplos adicionais de recapitulação ativa do website com base na palavra -chave FUNCIMENTAÇÃO PROMPTING.
Comparando amostras entre linhas de base xadrez e de todos os átomos. Amostras xadrez têm melhor diversidade e captura o padrão de fita beta que tem sido mais difícil para os modelos generativos de proteínas aprender.
Agradecimentos
Because of Nathan Frey for detailed suggestions on this text, and to co-authors throughout BAIR, Genentech, Microsoft Analysis, and New York College: Wilson Yan, Sarah A. Robinson, Simon Kelow, Kevin Ok. Yang, Vladimir Gligorijevic, Kyunghyun Cho, Richard Bonneau, Pieter Abbeel, and Nathan C. Frey.