Cada célula do seu corpo contém a mesma sequência genética, mas cada célula expressa apenas um subconjunto desses genes. Esses padrões de expressão gênica específicos de células, que garantem que uma célula cerebral seja diferente de uma célula da pele, são parcialmente determinados pela estrutura tridimensional do materials genético, que controla a acessibilidade de cada gene.
Os químicos do MIT agora criaram uma nova maneira de determinar essas estruturas de genoma 3D, usando inteligência synthetic generativa. Sua técnica pode prever milhares de estruturas em apenas alguns minutos, tornando -a muito mais rápida do que os métodos experimentais existentes para analisar as estruturas.
Usando essa técnica, os pesquisadores podem estudar mais facilmente como a organização 3D do genoma afeta os padrões e funções de expressão gênica de células individuais.
“Nosso objetivo period tentar prever a estrutura do genoma tridimensional da sequência de DNA subjacente”, diz Bin Zhang, professor associado de química e autor sênior do estudo. “Agora que podemos fazer isso, o que coloca essa técnica em pé de igualdade com as técnicas experimentais de ponta, isso pode realmente abrir muitas oportunidades interessantes”.
Os estudantes de pós -graduação do MIT, Greg Schuette e Zhuohan Lao, são os principais autores do artigo, que aparece hoje em Avanços científicos.
Da sequência à estrutura
Dentro do núcleo celular, o DNA e as proteínas formam um complexo chamado cromatina, que possui vários níveis de organização, permitindo que as células amonteçam 2 metros de DNA em um núcleo que tem apenas um centésimo de milímetro de diâmetro. Fios longos de vento de DNA em torno de proteínas chamadas histonas, dando origem a uma estrutura como contas em uma corda.
As marcas químicas conhecidas como modificações epigenéticas podem ser conectadas ao DNA em locais específicos, e essas tags, que variam de acordo com o tipo de célula, afetam a dobra da cromatina e a acessibilidade dos genes próximos. Essas diferenças na conformação da cromatina ajudam a determinar quais genes são expressos em diferentes tipos de células ou em momentos diferentes dentro de uma determinada célula.
Nos últimos 20 anos, os cientistas desenvolveram técnicas experimentais para determinar estruturas de cromatina. Uma técnica amplamente usada, conhecida como Hello-C, trabalha ligando os fios de DNA vizinhos no núcleo da célula. Os pesquisadores podem então determinar quais segmentos estão localizados próximos um do outro, destruindo o DNA em muitas peças minúsculas e sequenciando -o.
Este método pode ser usado em grandes populações de células para calcular uma estrutura média para uma seção de cromatina ou em células únicas para determinar estruturas dentro dessa célula específica. No entanto, o HI-C e as técnicas semelhantes são muito trabalhosas e pode levar cerca de uma semana para gerar dados de uma célula.
Para superar essas limitações, Zhang e seus alunos desenvolveram um modelo que aproveita os recentes avanços na IA generativa para criar uma maneira rápida e precisa de prever estruturas de cromatina em células únicas. O modelo de IA que eles criaram pode analisar rapidamente seqüências de DNA e prever as estruturas de cromatina que essas seqüências podem produzir em uma célula.
“O aprendizado profundo é realmente bom em reconhecimento de padrões”, diz Zhang. “Isso nos permite analisar segmentos de DNA muito longos, milhares de pares de bases e descobrir quais são as informações importantes codificadas nesses pares de bases de DNA”.
O Chromogen, o modelo que os pesquisadores criaram, tem dois componentes. O primeiro componente, um modelo de aprendizado profundo ensinado a “ler” o genoma, analisa as informações codificadas na sequência de DNA subjacente e nos dados de acessibilidade da cromatina, o último dos quais está amplamente disponível e específico para o tipo de célula.
O segundo componente é um modelo de IA generativo que prevê conformações de cromatina fisicamente precisas, tendo sido treinadas em mais de 11 milhões de conformações de cromatina. Esses dados foram gerados a partir de experimentos usando DIP-C (uma variante de Hello-C) em 16 células de uma linha de linfócitos B humanos.
Quando integrado, o primeiro componente informa ao modelo generativo como o ambiente específico do tipo de célula influencia a formação de diferentes estruturas de cromatina, e esse esquema captura efetivamente as relações de estrutura de sequência. Para cada sequência, os pesquisadores usam seu modelo para gerar muitas estruturas possíveis. Isso ocorre porque o DNA é uma molécula muito desordenada; portanto, uma única sequência de DNA pode dar origem a muitas conformações possíveis diferentes.
“Um grande fator complicador de prever a estrutura do genoma é que não há uma única solução que estamos buscando. Há uma distribuição de estruturas, independentemente da parte do genoma que você está olhando. Prevendo que a distribuição estatística muito complicada e de alta dimensão é algo que é incrivelmente desafiador ”, diz Schuette.
Análise rápida
Uma vez treinado, o modelo pode gerar previsões em uma escala de tempo muito mais rápida que o Hello-C ou outras técnicas experimentais.
“Embora você possa passar seis meses em execução para obter algumas dezenas de estruturas em um determinado tipo de célula, você pode gerar mil estruturas em uma região específica com nosso modelo em 20 minutos em apenas uma GPU”, diz Schuette.
Depois de treinar seu modelo, os pesquisadores o usaram para gerar previsões de estrutura para mais de 2.000 sequências de DNA e as compararam às estruturas determinadas experimentalmente para essas seqüências. Eles descobriram que as estruturas geradas pelo modelo eram as mesmas ou muito semelhantes às observadas nos dados experimentais.
“Normalmente, analisamos centenas ou milhares de conformações para cada sequência, e isso oferece uma representação razoável da diversidade das estruturas que uma região específica pode ter”, diz Zhang. “Se você repetir seu experimento várias vezes, em células diferentes, provavelmente acabará com uma conformação muito diferente. É isso que nosso modelo está tentando prever. ”
Os pesquisadores também descobriram que o modelo poderia fazer previsões precisas para dados de tipos de células que não sejam os treinados. Isso sugere que o modelo pode ser útil para analisar como as estruturas de cromatina diferem entre os tipos de células e como essas diferenças afetam sua função. O modelo também pode ser usado para explorar diferentes estados de cromatina que podem existir dentro de uma única célula e como essas alterações afetam a expressão gênica.
Outra aplicação possível seria explorar como as mutações em uma sequência de DNA específica alteram a conformação da cromatina, o que poderia esclarecer como essas mutações podem causar doenças.
“Há muitas perguntas interessantes que acho que podemos abordar com esse tipo de modelo”, diz Zhang.
Os pesquisadores fizeram todos os seus dados e o modelo disponível para outros que desejam usá -lo.
A pesquisa foi financiada pelos Institutos Nacionais de Saúde.