
(Fotos CI/Shutterstock)
Nos últimos vinte anos, os cientistas sequenciaram quase tudo o que puderam aceder – genomas bacterianos do solo, amostras virais de hospitais, microbiomas intestinais de pessoas de todo o mundo, até mesmo o ARN dentro de células humanas isoladas. Toda essa produção de sequenciamento é canalizada para arquivos enormes que silenciosamente se tornaram algumas das maiores coleções de dados do planeta.
Em termos de quantity, esses repositórios agora contêm mais dados genéticos brutos do que as páginas da net do Google. Deveria ser uma mina de ouro para descobertas científicas, e talvez seja. No entanto, a maior parte é praticamente inacessível porque os dados são fragmentados e quase impossíveis de pesquisar na sua forma bruta.
É por isso que uma nova ferramenta chamada MetaGraph, publicado recentemente na Natureestá recebendo muita atenção. Em vez de tratar os dados genómicos como algo que precisa de ser limpo e organizado primeiro, adota a abordagem oposta, abraçando o caos.
O MetaGraph foi desenvolvido por uma equipe de biólogos computacionais e pesquisadores de informática liderados por Gunnar Rätsch e André Kahles, juntamente com vários colaboradores especializados em indexação de sequências em larga escala e algoritmos de grafos.
Seu objetivo não period construir outro genoma de referência ou banco de dados de anotação, mas tornar os próprios dados brutos de sequenciamento pesquisáveis em escala de petabase. Em termos práticos, eles queriam um sistema que funcionasse diretamente nas leituras desmontadas armazenadas em arquivos globais e ainda retornasse respostas biológicas precisas – sem remodelar os dados para se adequarem às ferramentas existentes.
“É uma grande conquista”, diz Rayan Chikhi, pesquisador de biocomputação do Instituto Pasteur de Paris. “Eles estabeleceram um novo padrão” para a análise de dados biológicos brutos – incluindo sequências de ADN, ARN e proteínas – a partir de bases de dados que podem conter milhões de milhares de milhões de letras de ADN, totalizando ‘petabases’ de informação, mais entradas do que todas as páginas net no vasto índice do Google.
O MetaGraph é descrito como “Google para DNA”, mas Chikhi argumenta que na verdade está mais próximo do mecanismo de busca do YouTube, onde não apenas combina palavras-chave, mas analisa o próprio conteúdo. Ele pesquisa diretamente através de leituras brutas de DNA e RNA e pode detectar padrões ou variantes que nunca foram anotados ou mesmo conhecidos, tornando possível descobrir sinais que as ferramentas tradicionais perderiam completamente.
Para fazer isso, o MetaGraph organiza leituras de sequenciamento bruto em um gráfico que representa como pequenos fragmentos de DNA ou RNA se sobrepõem em muitos conjuntos de dados. Não tenta montar genomas completos. Em vez disso, capta as relações entre milhões de pedaços curtos, o que permite ao sistema rastrear onde aparece uma sequência específica – mesmo que seja apenas um pequeno fragmento partilhado entre espécies ou ambientes distantes.
O gráfico em si é armazenado em formato compactado, mas permanece pesquisável diretamente. Quando um pesquisador executa uma consulta, o MetaGraph não reprocessa conjuntos de dados inteiros. Ele navega pela estrutura do gráfico para localizar áreas onde padrões semelhantes já foram observados. Esta abordagem torna possível pesquisar grandes coleções de dados brutos em um período de tempo razoável, enquanto ainda se trabalha no nível das leituras originais, em vez de depender de anotações ou referências pré-construídas.
Os pesquisadores testaram o MetaGraph no mundo actual com resistência a antibióticos. Eles coletaram 241.384 amostras de microbioma intestinal humano coletadas de diferentes partes do mundo e fizeram uma pergunta simples: onde nessas amostras estão escondidos os genes de resistência? Normalmente, responder a isso significaria montar cada conjunto de dados, construir referências e executar pipelines separados em milhares de arquivos.
Esse tipo de trabalho guide pode levar semanas ou meses. O MetaGraph fez isso em cerca de uma hora em uma máquina de alto desempenho. Como a ferramenta foi construída para pesquisar diretamente as leituras brutas, ela foi capaz de detectar genes de resistência mesmo quando eles apareciam apenas como pequenos fragmentos ou em espécies sem nenhum genoma de referência. O sistema também descobriu padrões geográficos que se alinhavam com diferenças conhecidas no uso de antibióticos.
O MetaGraph não é a única tentativa de tornar pesquisáveis arquivos de sequenciamento massivos. O próprio Chikhi, juntamente com Artem Babaian, desenvolveu uma plataforma separada chamada Logan que aborda o problema de um ângulo diferente. Em vez de indexar leituras brutas, Logan as une em trechos mais longos de DNA, o que permite identificar rapidamente genes completos e suas variantes em enormes conjuntos de dados.
Essa abordagem levou à descoberta de mais de 200 milhões de versões naturais de uma enzima que degrada o plástico. No entanto, ferramentas baseadas em montagem como Logan são otimizadas para alvos específicos e podem perder sinais que não formam sequências limpas e completas. O MetaGraph foi desenvolvido para pesquisar dados brutos diretamente, oferecendo maior escopo e potencialmente mais flexibilidade aos pesquisadores.
Se ferramentas como o MetaGraph se tornarem amplamente disponíveis, pesquisadores de qualquer lugar poderão explorar conjuntos de dados globais sem infraestrutura massiva ou pipelines personalizados. Isso poderia acelerar a descoberta de medicamentos, o monitoramento ambiental e a medicina personalizada.
Talvez a mudança mais importante seja que os avanços científicos futuros poderão não exigir quaisquer novas experiências. Eles podem vir de dados que estão arquivados há anos, dados que já coletamos, mas que só agora podemos realmente pesquisar e compreender.
Itens Relacionados
Estado do armazenamento de DNA discutido em novo artigo
Por dentro do esforço do Microsoft Material para repensar como a IA vê os dados
Ajustando o desempenho do LLM: como os gráficos de conhecimento podem ajudar a evitar erros