Ao estudar as mudanças na expressão genética, os investigadores aprendem como as células funcionam a nível molecular, o que poderá ajudá-los a compreender o desenvolvimento de certas doenças.
Mas um ser humano tem cerca de 20 mil genes que podem afetar-se uns aos outros de formas complexas, por isso mesmo saber quais grupos de genes atingir é um problema extremamente complicado. Além disso, os genes trabalham juntos em módulos que regulam uns aos outros.
Os pesquisadores do MIT desenvolveram agora bases teóricas para métodos que poderiam identificar a melhor maneira de agregar genes em grupos relacionados, para que possam aprender com eficiência as relações subjacentes de causa e efeito entre muitos genes.
É importante ressaltar que este novo método consegue isso usando apenas dados observacionais. Isto significa que os investigadores não precisam de realizar experiências intervencionistas dispendiosas e, por vezes, inviáveis, para obter os dados necessários para inferir as relações causais subjacentes.
A longo prazo, esta técnica poderá ajudar os cientistas a identificar potenciais alvos genéticos para induzir certos comportamentos de uma forma mais precisa e eficiente, permitindo-lhes potencialmente desenvolver tratamentos precisos para os pacientes.
“Na genômica, é muito importante compreender o mecanismo subjacente aos estados celulares. Mas as células têm uma estrutura multiescala, por isso o nível de resumo também é muito importante. Se você descobrir a maneira correta de agregar os dados observados, as informações que você aprender sobre o sistema deverão ser mais interpretáveis e úteis”, diz o estudante de graduação Jiaqi Zhang, bolsista do Eric and Wendy Schmidt Middle e co-autor principal de um artigo sobre esta técnica.
Zhang é acompanhado no artigo pelo co-autor principal Ryan Welch, atualmente estudante de mestrado em engenharia; e a autora sênior Caroline Uhler, professora do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e do Instituto de Dados, Sistemas e Sociedade (IDSS), que também é diretora do Eric and Wendy Schmidt Middle no Broad Institute of MIT e Harvard, e pesquisador do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.
Aprendendo com dados observacionais
O problema que os pesquisadores se propuseram a enfrentar envolve programas de aprendizagem de genes. Esses programas descrevem quais genes funcionam juntos para common outros genes em um processo biológico, como o desenvolvimento ou diferenciação celular.
Como os cientistas não podem estudar eficientemente como todos os 20.000 genes interagem, eles usam uma técnica chamada desemaranhamento causal para aprender como combinar grupos relacionados de genes numa representação que lhes permita explorar eficientemente as relações de causa e efeito.
Em trabalhos anteriores, os pesquisadores demonstraram como isso poderia ser feito de forma eficaz na presença de dados intervencionistas, que são dados obtidos por variáveis perturbadoras da rede.
Mas muitas vezes é caro realizar experiências intervencionistas, e há alguns cenários em que tais experiências são antiéticas ou a tecnologia não é suficientemente boa para que a intervenção seja bem sucedida.
Com apenas dados observacionais, os investigadores não podem comparar genes antes e depois de uma intervenção para aprender como grupos de genes funcionam em conjunto.
“A maioria das pesquisas sobre desemaranhamento causal pressupõe acesso a intervenções, por isso não estava claro quanta informação é possível desemaranhar apenas com dados observacionais”, diz Zhang.
Os investigadores do MIT desenvolveram uma abordagem mais geral que utiliza um algoritmo de aprendizagem automática para identificar e agregar eficazmente grupos de variáveis observadas, por exemplo, genes, utilizando apenas dados observacionais.
Eles podem usar esta técnica para identificar módulos causais e reconstruir uma representação subjacente precisa do mecanismo de causa e efeito. “Embora esta pesquisa tenha sido motivada pelo problema de elucidar programas celulares, primeiro tivemos que desenvolver uma nova teoria causal para entender o que poderia ou não ser aprendido a partir de dados observacionais. Com essa teoria em mãos, em trabalhos futuros poderemos aplicar nosso conhecimento aos dados genéticos e identificar módulos genéticos, bem como suas relações regulatórias”, diz Uhler.
Uma representação em camadas
Usando técnicas estatísticas, os pesquisadores podem calcular uma função matemática conhecida como variância do Jacobiano da pontuação de cada variável. Variáveis causais que não afetam nenhuma variável subsequente devem ter uma variação zero.
Os pesquisadores reconstroem a representação em uma estrutura camada por camada, começando pela remoção das variáveis da camada inferior que possuem variância zero. Em seguida, eles trabalham de trás para frente, camada por camada, removendo as variáveis com variância zero para determinar quais variáveis, ou grupos de genes, estão conectados.
“Identificar as variações zero rapidamente se torna um objetivo combinatório bastante difícil de resolver, portanto, derivar um algoritmo eficiente que pudesse resolvê-lo foi um grande desafio”, diz Zhang.
No remaining, o seu método produz uma representação abstrata dos dados observados com camadas de variáveis interligadas que resumem com precisão a estrutura subjacente de causa e efeito.
Cada variável representa um grupo agregado de genes que funcionam juntos, e a relação entre duas variáveis representa como um grupo de genes regula outro. Seu método captura efetivamente todas as informações usadas na determinação de cada camada de variáveis.
Depois de provar que sua técnica period teoricamente sólida, os pesquisadores realizaram simulações para mostrar que o algoritmo pode desembaraçar com eficiência representações causais significativas usando apenas dados observacionais.
No futuro, os pesquisadores querem aplicar esta técnica em aplicações genéticas do mundo actual. Eles também querem explorar como o seu método poderia fornecer informações adicionais em situações em que alguns dados intervencionistas estão disponíveis, ou ajudar os cientistas a compreender como conceber intervenções genéticas eficazes. No futuro, este método poderá ajudar os investigadores a determinar de forma mais eficiente quais os genes que funcionam em conjunto no mesmo programa, o que poderá ajudar a identificar medicamentos que possam ter como alvo esses genes para tratar certas doenças.
Esta pesquisa é financiada, em parte, pelo MIT-IBM Watson AI Lab e pelo US Workplace of Naval Analysis.