Muitas tentativas foram feitas para aproveitar o poder da nova inteligência synthetic e dos grandes modelos de linguagem (LLMs) para tentar prever os resultados de novas reações químicas. Eles tiveram sucesso limitado, em parte porque até agora não foram fundamentados em um entendimento dos princípios físicos fundamentais, como as leis de conservação da massa. Agora, uma equipe de pesquisadores do MIT criou uma maneira de incorporar essas restrições físicas em um modelo de previsão de reação e, assim, melhorando bastante a precisão e a confiabilidade de seus resultados.
O novo trabalho foi relatou 20 de agosto no diário Natureza. ex -engenheiro de software program Mun Hong Fong (agora na Universidade Duke); Estudante de pós -graduação em engenharia química Nicholas Casetti; PostDoc Jordan Liles; estudante de graduação em física NE Dassanayake; e o autor sênior Connor Coley, que é o professor de desenvolvimento de carreira de 1957 nos departamentos do MIT de engenharia química e engenharia elétrica e ciência da computação.
“A previsão dos resultados da reação é uma tarefa muito importante”, explica Joung. Por exemplo, se você deseja criar um novo medicamento, “você precisa saber como fazê -lo. Portanto, isso exige que saibamos qual produto provavelmente” resultará de um determinado conjunto de entradas químicas a uma reação. Mas a maioria dos esforços anteriores para realizar essas previsões analisa apenas um conjunto de entradas e um conjunto de saídas, sem olhar para as etapas intermediárias ou considerar as restrições de garantir que nenhuma massa seja obtida ou perdida no processo, o que não é possível nas reações reais.
Joung ressalta que, embora grandes modelos de idiomas, como o ChatGPT, tenham tido muito sucesso em muitas áreas de pesquisa, esses modelos não fornecem uma maneira de limitar seus resultados a possibilidades fisicamente realistas, como exigindo que eles sigam a conservação da massa. Esses modelos usam “tokens” computacionais, que neste caso representam átomos individuais, mas “se você não conserva os tokens, o modelo LLM começa a fazer novos átomos ou excluir átomos na reação”. Em vez de ser fundamentado em um entendimento científico actual, “isso é como alquimia”, diz ele. Enquanto muitas tentativas de previsão de reação apenas analisam os produtos finais, “queremos rastrear todos os produtos químicos e como os produtos químicos são transformados” durante todo o processo de reação do início ao fim, diz ele.
Para resolver o problema, a equipe fez uso de um método desenvolvido na década de 1970 pelo químico Ivar UGI, que usa uma matriz de elétrons de ligação para representar os elétrons em uma reação. Eles usaram esse sistema como base para o seu novo programa, chamado Flower (Move Matching for Electron Redistribution), que lhes permite acompanhar explicitamente todos os elétrons na reação para garantir que nenhum seja espacialmente adicionado ou excluído no processo.
O sistema usa uma matriz para representar os elétrons em uma reação e usa valores diferentes de zero para representar ligações ou pares de elétrons solitários e zeros para representar uma falta dela. “Isso nos ajuda a economizar átomos e elétrons ao mesmo tempo”, diz Fong. Essa representação, diz ele, foi um dos elementos -chave para incluir a conservação em massa em seu sistema de previsão.
O sistema que eles desenvolveram ainda está em um estágio inicial, diz Coley. “O sistema como está é uma demonstração – uma prova de conceito de que essa abordagem generativa de correspondência de fluxo é muito adequada à tarefa de previsão de reação química”. Embora a equipe esteja empolgada com essa abordagem promissora, ele diz: “Estamos cientes de que ela tem limitações específicas até a amplitude de diferentes químicas que é vista”. Embora o modelo tenha sido treinado usando dados sobre mais de um milhão de reações químicas, obtidas em um banco de dados de escritórios de patentes nos EUA, esses dados não incluem certos metais e alguns tipos de reações catalíticas, diz ele.
“Estamos incrivelmente empolgados com o fato de podermos obter previsões tão confiáveis de mecanismos químicos” do sistema existente, diz ele. “Isso conserva a missa, conserva elétrons, mas certamente reconhecemos que há muito mais expansão e robustez em trabalhar nos próximos anos também”.
Mas mesmo em sua forma atual, que está sendo disponibilizada gratuitamente no Github da plataforma on -line, “achamos que ele fará previsões precisas e será útil como uma ferramenta para avaliar a reatividade e mapear as vias de reação”, diz Coley. “Se estamos olhando para o futuro de realmente avançar o estado da arte da compreensão mecanicista e ajudar a inventar novas reações, não estamos bem lá. Mas esperamos que isso seja um trampolim para isso”.
“É tudo de código aberto”, diz Fong. “Os modelos, os dados, todos eles estão lá em cima”, incluindo um conjunto de dados anterior desenvolvido por Joung que lista exaustivamente as etapas mecanicistas das reações conhecidas. “Acho que somos um dos grupos pioneiros que fazem esse conjunto de dados e o disponibilizam de código aberto e tornando isso utilizável para todos”, diz ele.
O modelo de flores corresponde ou supera as abordagens existentes para encontrar vias mecanicistas padrão, diz a equipe, e possibilita generalizar para os tipos de reação anteriormente não vistos. Eles dizem que o modelo pode ser potencialmente relevante para prever reações para química medicinal, descoberta de materiais, combustão, química atmosférica e sistemas eletroquímicos.
Em suas comparações com os sistemas de previsão de reação existentes, Coley diz: “Usando as opções de arquitetura que fizemos, obtemos esse aumento maciço de validade e conservação e obtemos uma precisão correspondente ou um pouco melhor em termos de desempenho”.
Ele acrescenta que “o que é único em nossa abordagem é que, enquanto estamos usando esses entendimentos de livros didáticos de mecanismos para gerar esse conjunto de dados, estamos ancorando os reagentes e produtos da reação geral em dados validados experimentalmente da literatura patente”. Eles estão inferindo os mecanismos subjacentes, diz ele, em vez de apenas inventá -los. “Estamos imputando -os de dados experimentais, e isso não é algo que foi feito e compartilhado nesse tipo de escala antes”.
A próxima etapa, diz ele, é “estamos bastante interessados em expandir o entendimento do modelo sobre metais e ciclos catalíticos. Acabamos de arranhar a superfície neste primeiro artigo”, e a maioria das reações incluídas até agora não inclui metais ou catalisadores, “de modo que essa é uma direção em que nos interessamos muito”.
A longo prazo, ele diz: “grande parte da emoção está usando esse tipo de sistema para ajudar a descobrir novas reações complexas e ajudar a elucidar novos mecanismos. Acho que o impacto potencial de longo prazo é grande, mas isso é, obviamente, um primeiro passo”.
O trabalho foi apoiado pelo Machine Studying for Pharmaceutical Discovery and Synthesis Consortium e pela Nationwide Science Basis.