
Sequenciamento de nanoporos de alto rendimento de XNAs. Crédito: Comunicações da Natureza (2025). DOI: 10.1038/s41467-025-62347-z
Uma equipe de pesquisa liderada pelo Instituto do Genoma A*STAR de Cingapura (A*STAR GIS) desenvolveu um método para ler com precisão e eficiência DNA contendo bases não padronizadas – uma tarefa que antes period considerada muito complexa para sequenciadores de DNA convencionais. Seu trabalho, publicado em Comunicações da Naturezacombina sequenciamento de nanoporos com inteligência synthetic (IA) para decodificar essas “letras” extras em alta velocidade e precisão.
O desafio: decodificar o DNA, a linguagem oculta da natureza
O DNA é o guide de instruções da natureza, construído a partir de quatro “letras” padrão ou bases A, T, C e G. Os cientistas há muito imaginam expandir esse alfabeto genético adicionando novas “letras”, conhecidas como bases não canônicas (NCBs). Esses BCN podem ocorrer naturalmente em alguns vírus ou ser criados em laboratório e têm o potencial de desbloquear novas formas de projetar moléculas, materiais e sistemas biológicos.
Contudo, as máquinas de sequenciamento de DNA foram construídas para reconhecer apenas as quatro bases padrão. Dado que têm dificuldade em detectar ou descodificar novos medicamentos, os cientistas não conseguiram aproveitar plenamente o seu potencial para desenvolver medicamentos mais precisos, conceber genomas artificiais para a produção química sustentável e conceber materiais programáveis e dispositivos em nanoescala para tecnologias futuras.
“Nossa capacidade de ler rapidamente um trecho de texto depende em grande parte de quão familiarizados estamos com o vocabulário usado”, disse o Dr. Mauricio Lisboa Perez, cientista do A*STAR GIS e primeiro autor do estudo. “Da mesma forma, para um modelo de IA fazer uma ‘leitura rápida’ de DNA, ele deve ter visto exemplos suficientes de cada base. Bases não canônicas são raras e mais difíceis de produzir, então tivemos que projetar maneiras criativas de gerar exemplos suficientes para nosso modelo de IA aprender.”
A solução: usar IA para traduzir DNA com bases não padronizadas
A equipe criou uma grande biblioteca de DNA synthetic contendo bases padrão e não padronizadas em diferentes combinações e, em seguida, usou o sequenciamento de nanoporos para registrar os sinais elétricos únicos produzidos à medida que cada base passava pelos poros microscópicos.
Como os dados eram muitas vezes ruidosos e incompletos, os investigadores desenvolveram uma abordagem baseada em IA que poderia aprender e melhorar iterativamente, refinando as suas previsões ao longo do tempo. Eles também aprimoraram o aprendizado do modelo de IA reorganizando criativamente os dados de sinal existentes para representar mais combinações.
Este método adaptativo permitiu que a IA reconhecesse com precisão o padrão distinto de cada base, permitindo ao sequenciador ler diretamente novas “letras” de DNA.
Embora outros grupos de pesquisa tenham explorado desafios semelhantes, este estudo é o primeiro a demonstrar um sequenciador de DNA que pode identificar de forma direta e confiável bases não padronizadas em escala usando IA, superando gargalos importantes, como dados de treinamento limitados.
“Ser capaz de identificar com precisão essas novas bases em escala nos dá um vocabulário muito mais rico para escrever e ler informações biológicas”, disse o Dr. Niranjan Nagarajan, Diretor Associado de IA e Computação da A*STAR GIS e autor sênior do estudo. “É como aprender a reconhecer novas letras, o que nos permite compreender muito mais palavras e significados na linguagem da vida.”
Potencial transformador do método
Este avanço poderá impulsionar a inovação em vários campos:
- Cuidados de saúde e terapêutica: A leitura e análise precisa de bases não padronizadas elimina um grande gargalo no desenvolvimento de tratamentos baseados em DNA e RNA, abrindo caminho para novos medicamentos e diagnósticos.
- Materiais avançados e biotecnologia: Bases não padronizadas poderiam servir como novos blocos de construção para nanoestruturas e nanorrobôs, levando a avanços na medicina, na fabricação e na produção química sustentável.
- Armazenamento de dados e informações: Codificar informações usando alfabetos de DNA expandidos poderia tornar armazenamento de dados mais acessível e energeticamente eficiente, reduzindo potencialmente a pegada ambiental dos information facilities.
Os pesquisadores planejam estender seu trabalho para descobrir mais bases não padronizadas em vírus e melhorar a capacidade do modelo de IA de detectá-los.
“Estamos entusiasmados com este novo método de sequenciamento de DNA e com as possibilidades que ele traz”, disse o Dr. Wan Yue, Diretor Executivo da A*STAR GIS.
“Trabalhar com um alfabeto de DNA expandido criará mais oportunidades para os cientistas desenvolverem novas terapêuticas, novos organismos que produzem produtos químicos ambientalmente e novos materiais programáveis para nanoestruturas e nanorrobôs. Essas inovações podem promover a descoberta científica, criar valor econômico e, em última análise, melhorar vidas.”
Mais informações:
Mauricio Perez et al, Desconvolução direta de alto rendimento de bases não canônicas through sequenciamento de nanoporos e aprendizado inicializado, Comunicações da Natureza (2025). DOI: 10.1038/s41467-025-62347-z
Citação: Decodificando novas ‘letras’ de DNA para o avanço da medicina e da biotecnologia (2025, 13 de novembro) recuperadas em 13 de novembro de 2025 em https://phys.org/information/2025-11-decoding-dna-letters-advance-medicine.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.