Um novo modelo prevê como as moléculas se dissolverão em diferentes solventes | MIT Information



Um novo modelo prevê como as moléculas se dissolverão em diferentes solventes | MIT Information

Usando o aprendizado de máquina, os engenheiros químicos do MIT criaram um modelo computacional que pode prever o quão bem qualquer molécula se dissolverá em um solvente orgânico – uma etapa -chave na síntese de quase qualquer farmacêutico. Esse tipo de previsão pode facilitar o desenvolvimento de novas maneiras de produzir medicamentos e outras moléculas úteis.

O novo modelo, que prevê o quanto de soluto se dissolverá em um solvente específico, deve ajudar os químicos a escolher o solvente certo para qualquer reação em sua síntese, dizem os pesquisadores. Solventes orgânicos comuns incluem etanol e acetona, e existem centenas de outros que também podem ser usados em reações químicas.

“A previsão da solubilidade é realmente uma etapa limitadora de taxas no planejamento sintético e na fabricação de produtos químicos, especialmente medicamentos, portanto, houve um interesse de longa knowledge em poder fazer melhores previsões de solubilidade”, diz Lucas Attia, um estudante de graduação do MIT e um dos autores principais do novo estudo.

Os pesquisadores fizeram seu modelo Disponível livremente, e muitas empresas e laboratórios já começaram a usá -lo. O modelo pode ser particularmente útil para identificar solventes menos perigosos do que alguns dos solventes industriais mais usados, dizem os pesquisadores.

“Existem alguns solventes que se dissolvem pela maioria das coisas. Eles são realmente úteis, mas são prejudiciais ao meio ambiente e são prejudiciais para as pessoas, muitas empresas exigem que você exact minimizar a quantidade de solventes que você usa”, diz Jackson Burns, um estudante de graduação do MIT que também é principal autor do jornal. “Nosso modelo é extremamente útil para poder identificar o próximo melhor solvente, o que é muito menos prejudicial para o meio ambiente”.

William Inexperienced, o professor de engenharia química de Hoyt Hottel e diretor da MIT Power Initiative, é o autor sênior do estudarque aparece hoje em Comunicações da natureza. Patrick Doyle, professor de Robert T. Haslam de Engenharia Química, também é autor do artigo.

Resolvendo solubilidade

O novo modelo surgiu de um projeto em que Attia e Burns trabalharam juntos em um curso do MIT sobre a aplicação do aprendizado de máquina a problemas de engenharia química. Tradicionalmente, os químicos previam a solubilidade com uma ferramenta conhecida como modelo de solvatação de Abraham, que pode ser usada para estimar a solubilidade geral de uma molécula, adicionando as contribuições de estruturas químicas na molécula. Embora essas previsões sejam úteis, sua precisão é limitada.

Nos últimos anos, os pesquisadores começaram a usar o aprendizado de máquina para tentar fazer previsões de solubilidade mais precisas. Antes de Burns e Attia começarem a trabalhar em seu novo modelo, o modelo de última geração para prever a solubilidade period um modelo desenvolvido no laboratório de Inexperienced em 2022.

Esse modelo, conhecido como SolProp, trabalha prevendo um conjunto de propriedades relacionadas e combinando -as, usando termodinâmica, para prever a solubilidade. No entanto, o modelo tem dificuldade em prever a solubilidade para solutos que nunca viu antes.

“Para oleodutos de descoberta de drogas e produtos químicos, onde você está desenvolvendo uma nova molécula, deseja prever com antecedência como é sua solubilidade”, diz Attia.

Parte da razão pela qual os modelos de solubilidade existentes não funcionaram bem é porque não havia um conjunto de dados abrangente para treiná -los. No entanto, em 2023, foi lançado um novo conjunto de dados chamado BigSoldB, que compilou dados de quase 800 artigos publicados, incluindo informações sobre solubilidade para cerca de 800 moléculas dissolvidas em cerca de 100 solventes orgânicos que são comumente usados em química sintética.

Attia e Burns decidiram tentar treinar dois tipos diferentes de modelos nesses dados. Ambos os modelos representam as estruturas químicas das moléculas usando representações numéricas conhecidas como incorporações, que incorporam informações como o número de átomos em uma molécula e quais átomos estão ligados aos outros átomos. Os modelos podem então usar essas representações para prever uma variedade de propriedades químicas.

Um dos modelos utilizados neste estudo, conhecido como FastProp e desenvolvido por Burns e outros no laboratório de Inexperienced, incorpora “incorporações estáticas”. Isso significa que o modelo já conhece a incorporação de cada molécula antes de começar a fazer qualquer tipo de análise.

O outro modelo, ChemProp, aprende uma incorporação para cada molécula durante o treinamento, ao mesmo tempo em que aprende a associar as características da incorporação a uma característica como a solubilidade. Esse modelo, desenvolvido em vários laboratórios do MIT, já foi usado para tarefas como descoberta de antibióticos, design de nanopartículas lipídicas e previsão de taxas de reação química.

Os pesquisadores treinaram os dois tipos de modelos em mais de 40.000 pontos de dados do BigSoldB, incluindo informações sobre os efeitos da temperatura, que desempenham um papel significativo na solubilidade. Em seguida, eles testaram os modelos em cerca de 1.000 solutos que foram retidos dos dados de treinamento. Eles descobriram que as previsões dos modelos eram duas a três vezes mais precisas que as do SolProp, o melhor modelo anterior, e os novos modelos eram especialmente precisos na previsão de variações na solubilidade devido à temperatura.

“Ser capaz de reproduzir com precisão essas pequenas variações na solubilidade devido à temperatura, mesmo quando o ruído experimental abrangente é muito grande, foi um sinal realmente positivo de que a rede havia aprendido corretamente uma função de previsão de solubilidade subjacente”, diz Burns.

Previsões precisas

Os pesquisadores esperavam que o modelo baseado no ChemProp, capaz de aprender novas representações à medida que avança, seria capaz de fazer previsões mais precisas. No entanto, para sua surpresa, eles descobriram que os dois modelos tiveram um desempenho essencialmente o mesmo. Isso sugere que a principal limitação de seu desempenho é a qualidade dos dados e que os modelos estão executando e teoricamente possíveis com base nos dados que estão usando, dizem os pesquisadores.

“O ChemProp deve sempre superar qualquer incorporação estática quando você tiver dados suficientes”, diz Burns. “Ficamos impressionados ao ver que as incorporações estáticas e aprendidas eram estatisticamente indistinguíveis no desempenho em todos os diferentes subconjuntos, o que nos indica que as limitações de dados presentes neste espaço dominaram o desempenho do modelo”.

Os modelos podem se tornar mais precisos, dizem os pesquisadores, se estivessem melhores dados de treinamento e teste – idealmente, dados obtidos por uma pessoa ou um grupo de pessoas treinadas para realizar os experimentos da mesma maneira.

“Uma das grandes limitações de usar esses tipos de conjuntos de dados compilados é que diferentes laboratórios usam métodos diferentes e condições experimentais quando realizam testes de solubilidade. Isso contribui para essa variabilidade entre diferentes conjuntos de dados”, diz Attia.

Como o modelo baseado no FastProp torna suas previsões mais rapidamente e possui código mais fácil para outros usuários se adaptarem, os pesquisadores decidiram fazer com que um, conhecido como fastsolv, disponível ao público. Várias empresas farmacêuticas já começaram a usá -lo.

“Existem aplicações em todo o pipeline de descoberta de medicamentos”, diz Burns. “Também estamos empolgados em ver, fora da formulação e descoberta de medicamentos, onde as pessoas podem usar esse modelo”.

A pesquisa foi financiada, em parte, pelo Departamento de Energia dos EUA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *