As biópsias líquidas desbloqueiam o rastreamento e o monitoramento não invasivo do câncer, analisando biomarcadores de câncer no sangue, mas os sinais podem ser esparsos e barulhentos. A Exai Bio foi pioneira Biópsia líquida orientada por IA usando novos pequenos biomarcadores de RNA. Em trabalhos recentes, Exai-1 e Orion – dois novos IA generativa para RNA livre de células – alcançar avanços na eliminação de ruído de sinal e na detecção precoce do câncer. Esses avanços foram possíveis graças à arquitetura lakehouse e à infraestrutura de IA em nuvem da Databricks. Ao unificar grandes conjuntos de dados genômicos e fornecer ferramentas de ML gerenciadas (MLflow, Workflows, clusters escalonáveis), o Databricks permite que os pesquisadores da Exai treinem grandes modelos multimodais em milhares de amostras de pacientes. Neste esforço conjunto, destacamos os avanços técnicos da Exai Bio e mostramos como o lakehouse e o ecossistema MLOps da Databricks aceleram a IA biomédica de ponta.
Modelos de base multimodal para biópsia líquida
A pesquisa mais recente da Exai Bio apresenta grandes modelos generativos adaptado aos dados da biópsia líquida. Esses modelos integram informações de sequência, abundância molecular e metadados ricos para aprender representações de alta qualidade de RNAs associados ao câncer.
- Exai-1 (modelo de base cfRNA): Um autoencodificador variacional baseado em transformador que une incorporações de sequências de RNA com perfis de abundância de RNA livre de células (cfRNA). Exai-1 é pré-treinado em conjuntos de dados massivos – mais de 306 bilhões de tokens de sequência de 13.014 amostras de sangue – aprendendo uma estrutura latente biologicamente significativa de expressão de cfRNA. Ao aproveitar tanto a sequência (por meio de incorporações do modelo de linguagem RNA-FM) quanto os dados de expressão, o Exai-1 “aumenta a fidelidade do sinal, reduz o ruído técnico e melhora a detecção de doenças ao gerar perfis sintéticos de cfRNA”. Na prática, o Exai-1 pode diminuir o ruído medições esparsas de cfRNA e até mesmo aumentar conjuntos de dados: classificadores treinados nos perfis reconstruídos do Exai-1 superam consistentemente aqueles treinados em dados brutos. Esta abordagem generativa de transferência-aprendizagem cria efetivamente um modelo de fundação para qualquer tarefa de diagnóstico baseada em cfRNA – por exemplo, usando os mesmos embeddings pré-treinados para detectar outros tipos de câncer ou novos biomarcadores.
- Orion (classificador generativo OncRNA): Um autoencoder variacional especializado (VAE) para circulação órfão RNAs não codificantes (oncRNAs), que são pequenos RNAs secretados por tumores. Órion tem um gêmeo VAE arquitetura: toma como entrada um vetor de contagem de oncRNAs associados ao câncer e um vetor de RNAs de controle (por exemplo, RNAs de manutenção endógenos). Cada entrada alimenta um codificador separado; seus resultados permitem treinar um classificador robusto e reconstruir a distribuição de oncRNA subjacente. É importante ressaltar que o treinamento da Orion inclui perdas contrastivas e de classificação: uma perda de margem tripla reúne amostras com o mesmo fenótipo (câncer vs. controle) e separa diferentes fenótipos, removendo efeitos de lote e variações técnicas. A incorporação aprendida é então usada por um classificador downstream para prever a presença de câncer. Em uma coorte de 1.050 pacientes com câncer de pulmão e controles, a Orion alcançou Sensibilidade de 94% com especificidade de 87% para detecção de NSCLC em todos os estágios, superando os métodos padrão em aproximadamente 30% em dados retidos. Este modelo generativo e semissupervisionado elimina automaticamente os sinais de cfRNA e produz uma impressão digital compacta específica do câncer, permitindo uma detecção precoce mais precisa do que os ensaios anteriores.

Figura 1: Arquitetura do modelo Orion da Exai Bio para biópsia líquida. Imagem de Karimzadeh et al., Nat Commun.
Juntos, esses modelos formam um estrutura de IA escalável para biópsia líquida. Exai-1 fornece um “modelo de linguagem” de cfRNA de uso geral que pode gerar perfis de RNA realistas e impulsionar classificadores downstream. A Orion ajusta esta abordagem ao problema específico do rastreio do cancro do pulmão. Em ambos os casos, os modelos generalizar em diferentes condições – Exai-1 “facilita a tradução cruzada de biofluidos e a compatibilidade do ensaio”, desembaraçando sinais biológicos verdadeiros de fatores de confusão. O resultado é uma nova geração de ferramentas de IA que podem extrair padrões sutis de biomarcadores de cfRNA para detecção precoce de câncer e descoberta de biomarcadores.
Databricks Information Intelligence e plataforma de IA: a infraestrutura facilitadora
Essas inovações em IA são alimentadas pela plataforma unificada de análise de dados da Databricks. Os principais recursos incluem:
- Armazenamento Unificado Lakehouse (Delta): armazenamos todos os metadados (informações de amostra, dados de laboratório e experimentos) em tabelas Delta do Databricks. Este single casa do lago evita silos de dados e permite análises em tempo actual. Como observa a solução de saúde da Databricks, o lakehouse “reúne dados de pacientes, de pesquisa e operacionais em escala” e elimina silos legados, tornando os dados genômicos e clínicos instantaneamente consultáveis. Por exemplo, as mais de 13.000 amostras de sangue da Exai (em soro e plasma) e mais de 10.000 conjuntos de dados anteriores de small RNA-seq estão todos registrados em tabelas Delta, que podem ser rapidamente filtradas e unidas para treinamento de modelo.
- Computação e clusters escaláveis: Os clusters nativos da nuvem do Databricks permitem que os pesquisadores ativar GPU ou instâncias com muita memória sem esforço profundo de DevOps. Databricks nos permite avançar rapidamente. O gerenciamento de cluster é intuitivo e recursos como encerramento automático e painéis de custos mantêm os orçamentos sob controle. Esse escalonamento sob demanda permitiu a otimização e o treinamento de Exai-1 e Orion em centenas de núcleos de CPU/GPUs. Os fluxos de trabalho do Databricks (anteriormente Jobs) organizam a “computação”: os pesquisadores podem lançar ETL de vários estágios e pipelines de treinamento com dependências definidas, paralelizando tarefas sem escrever código de orquestração complexo.
- MLflow para MLOps: cada experimento executado (hiperparâmetros, conjuntos de dados, métricas, artefatos) é rastreado no MLflow, que está totalmente integrado ao Databricks. Databricks fornece toda a configuração do ambiente MLflow, como o servidor de rastreamento, e o disponibiliza sem configuração. O rastreamento de experimentos e registro de modelos do MLflow garantem reprodutibilidade e colaboração. Com o MLflow gerenciado, o registro de métricas e artefatos de dezenas de modelos realmente tornou possível realizar estudos de ablação e otimizar recursos que melhoram diferentes aspectos do desempenho do modelo.
- Ambientes reproduzíveis: Databricks Container Companies e Repos baseados em Git (com CI/CD) bloqueiam dependências de software program para cada pipeline. Isto tem sido essential para a pilha de pesquisa da Exai Bio (incluindo ferramentas de bioinformática personalizadas), garantindo que cada membro da equipe execute modelos em ambientes idênticos. Resumindo, o Databricks fornece uma plataforma MLOps pronta para uso: ingestão de dados com Spark, rastreamento de experimentos com MLflow, orquestração com Jobs/Workflows e computação elástica com escalonamento automático.
Impacto na detecção do câncer e na descoberta de biomarcadores
Os avanços científicos e de engenharia combinados têm implicações importantes:
- Detecção precoce aprimorada – Ao amplificar o sinal do câncer cfRNA contra o fundo das moléculas de RNA do sangue, nossos modelos de IA podem detectar o câncer em estágios iniciais. A eliminação de ruído do Exai-1 produz sinais mais claros mesmo em amostras de sangue de pequeno quantity, enquanto a incorporação generativa do Orion atinge alta sensibilidade (94%) para câncer de pulmão em estágio inicial. Tais melhorias poderão traduzir-se em testes de rastreio mais fiáveis (por exemplo, análises sanguíneas anuais) que detectem tumores em fases curáveis.
- Novos insights sobre biomarcadores – Os modelos aprendem com dados brutos de RNA, reduzindo distorções de painéis direcionados. Por exemplo, Orion identificou centenas de romance oncRNAs de TCGA e dados de tecidos, validaram então sua importância no sangue. O espaço latente do Exai-1 combina informações sobre sequência, estrutura e abundância de RNA que podem destacar biomarcadores anteriormente negligenciados. É importante ressaltar que o paradigma de aprendizagem por transferência nos permite incorporar novas descobertas rapidamente (por exemplo, trocando novos tokens de sequência) e fazer ajustes na plataforma unificada.
- Aumento de dados generativos – Exai-1 pode simular perfis realistas de cfRNA por amostragem de seu decodificador. Esses dados sintéticos aumentam o treinamento do classificador, conforme mostrado por AUCs mais altas ao usar reconstruções Exai-1. Na prática, isto significa que assinaturas raras de cancro podem ser aprendidas de forma mais robusta, apesar das amostras reais limitadas. Por outras palavras, o modelo de base mitiga a escassez de dados – um issue crítico uma vez que “a detecção de cancros raros… necessita de modelos de base e dados de formação substanciais”.
- Colaboração de pesquisa escalonável – Ao desenvolver o Databricks, a equipe multidisciplinar da Exai (biólogos, bioinformáticos, bioestatísticos, cientistas de ML e engenheiros de dados) pode colaborar perfeitamente. Cientistas de dados executam PyTorch e Spark lado a lado; bioestatísticos consultam coortes com R; os biólogos registram novas amostras processadas e os relatórios/painéis são atualizados automaticamente. Este rápido ciclo de suggestions permitiu à equipe Exai mostrar as aplicações de sua biópsia líquida e sistema de IA em vários tipos de câncer, resultando em sete publicações em conferências em 18 meses. Ele exemplifica como a infraestrutura de IA de nível empresarial acelera a P&D em ciências biológicas.
Olhando para o futuro
A colaboração entre Exai Bio e Databricks mostra como modelos de IA de ponta e arquitetura de nuvem moderna juntos ampliam as fronteiras do diagnóstico do câncer. Os modelos básicos e generativos de IA da Exai Bio (Exai-1 e Orion) demonstram que o aprendizado generativo profundo pode extrair sinais poderosos de biópsias líquidas. Subjacente a esses avanços está o Lakehouse da Databricks – unificando dados biomédicos heterogêneos – e suas ferramentas de ML gerenciadas (MLflow, Workflows, Pipelines) que tornam a experimentação em grande escala prática e reproduzível. Olhando para o futuro, continuaremos refinando nossos modelos e pipelines. Juntas, a Exai Bio e a Databricks estão lançando as bases para uma oncologia de precisão baseada em IA que seja escalonável e clinicamente impactante.
Fontes: Exai Bio e outros.“Um modelo de linguagem cfRNA multimodal para biópsia líquida” (Inteligência da Máquina da Natureza2025); Exai Bio e outros., Natureza Comun. (2024) “Modelos de IA generativos profundos analisando RNAs não codificantes órfãos circulantes…”; Documentação e blogs do Databricks.