A revolução cervejeira da ciência de dados GenAI


Se você lidera uma equipe corporativa de ciência de dados ou uma unidade de pesquisa quantitativa hoje, provavelmente se sente como se estivesse vivendo em dois universos paralelos.

Em um universo, você tem a explosão “GenAI”. Os chatbots agora escrevem códigos e criam arte, e as salas de reuniões estão obcecadas em saber como os grandes modelos de linguagem (LLMs) mudarão o mundo. No outro universo, você tem seu trabalho diário: o trabalho “sério” de prever a rotatividade, prever a demanda e detectar fraudes usando dados tabulares estruturados.

Durante anos, esses dois universos pareciam completamente separados. Você pode até sentir que o foguete da GenAI deixou os dados principais do seu negócio parados na plataforma.

Mas essa separação é uma ilusão e está a desaparecer rapidamente.

Dos chatbots às previsões: GenAI chega à modelagem tabular e de séries temporais

Quer você seja um cético ou um verdadeiro crente, certamente já interagiu com um modelo transformador para redigir um e-mail ou com um modelo de difusão para gerar uma imagem. Mas enquanto o mundo se concentrava em texto e pixels, as mesmas arquiteturas subjacentes aprendiam silenciosamente uma linguagem diferente: a linguagem dos números, do tempo e dos padrões tabulares.

Tomemos por exemplo SAP-RPT-1 e LaTable. O primeiro utiliza uma arquitetura de transformador e o segundo é um modelo de difusão; ambos são usados ​​para previsão de dados tabulares.

Estamos testemunhando o surgimento de modelos básicos de ciência de dados.

Estas não são apenas melhorias incrementais nos modelos preditivos que você conhece. Eles representam uma mudança de paradigma. Assim como os LLMs podem “zerar” uma tarefa de tradução para a qual não foram explicitamente treinados, esses novos modelos podem analisar uma sequência de dados, por exemplo, números de vendas ou logs de servidor, e gerar previsões sem o pipeline de treinamento tradicional e trabalhoso.

O ritmo da inovação aqui é impressionante. Pelas nossas contas, só desde o início de 2025, vimos pelo menos 14 lançamentos importantes de modelos básicos projetados especificamente para dados tabulares e de séries temporais. Isso inclui um trabalho impressionante das equipes por trás Cronos-2, TiRex, Moirai-2, TabPFN-2.5e TempoPFN (usando SDEs para geração de dados), para citar apenas alguns modelos de fronteira.

Modelos se tornaram fábricas produtoras de modelos

Tradicionalmente, os modelos de aprendizado de máquina eram tratados como artefatos estáticos: treinados uma vez com base em dados históricos e depois implantados para produzir previsões.

A revolução cervejeira da ciência de dados GenAI
Figura 1: Aprendizado de máquina clássico: treine seus dados para construir um modelo preditivo

Esse enquadramento não se sustenta mais. Cada vez mais, os modelos modernos comportam-se menos como preditores e mais como sistemas geradores de modelos, capazes de produzir novas representações específicas de situações sob demanda.

modelos de fundação
Figura 2: O modelo básico interpreta instantaneamente os dados fornecidos com base em sua experiência

Estamos caminhando em direção a um futuro onde você não pedirá apenas um modelo para uma previsão de um único ponto; você solicitará que um modelo básico gere uma representação estatística sob medida – na verdade, um minimodelo – adaptado à situação específica em questão.

A revolução não está chegando; já está fermentando nos laboratórios de pesquisa. A questão agora é: por que ainda não está em seu pipeline de produção?

A verificação da realidade: alucinações e linhas de tendência

Se você percorreu os intermináveis ​​exemplos de alucinações grotescas de LLM on-line, incluindo advogados citando casos falsos e chatbots inventando eventos históricos, a ideia dessa energia caótica se infiltrando em suas previsões corporativas imaculadas é suficiente para mantê-lo acordado à noite.

Suas preocupações são inteiramente justificadas.

O aprendizado de máquina clássico é a escolha conservadora por enquanto

Embora a nova onda de modelos básicos de ciência de dados (nosso termo coletivo para modelos de base tabulares e de séries temporais) seja promissora, ela ainda está no início.

Sim, os fornecedores de modelos podem atualmente reivindicar posições de topo em benchmarks académicos: todos os modelos com melhor desempenho na tabela de classificação de previsões de séries temporais Avaliação de PRESENTE e o placar de dados tabulares TabArena agora são modelos básicos ou invólucros agentes de modelos básicos. Mas na prática? A realidade é que alguns destes modelos “de primeira linha” lutam atualmente para identificar até mesmo as linhas de tendência mais básicas nos dados brutos.

Eles podem lidar com a complexidade, mas às vezes tropeçam no básico que uma simples regressão resolveria – confira os estudos honestos de ablação no Artigo TabPFN v2por exemplo.

Por que continuamos confiantes: o caso dos modelos de fundação

Embora estes modelos ainda enfrentem limitações iniciais, existem razões convincentes para acreditar no seu potencial a longo prazo. Já discutimos sua capacidade de reagir instantaneamente às entradas do usuário, um requisito elementary para qualquer sistema operando na period da IA ​​de agência. Mais fundamentalmente, podem recorrer a um reservatório praticamente ilimitado de informações prévias.

Pense nisso: quem tem melhores possibilities de resolver um problema complexo de previsão?

  • Opção A: um modelo clássico que conhece seus dados, mas apenas seus dados. Começa sempre do zero, cego para o resto do mundo.
  • Opção B: um modelo básico que foi treinado em um número impressionante de problemas relevantes em vários setores, décadas e modalidades — muitas vezes aumentado por grandes quantidades de dados sintéticos — e é então exposto à sua situação específica.

Os modelos clássicos de aprendizado de máquina (como XGBoost ou ARIMA) não sofrem com as “alucinações” da GenAI em estágio inicial, mas também não vêm com uma “ajuda prévia”. Eles não podem transferir sabedoria de um domínio para outro.

A aposta que estamos a fazer, e a aposta para a qual a indústria está a avançar, é que, eventualmente, o modelo com a “experiência do mundo” (o anterior) irá superar o modelo que está a aprender isoladamente.

Os modelos básicos de ciência de dados têm an opportunity de se tornar a próxima grande mudança na IA. Mas para que isso aconteça, precisamos mover as traves. Neste momento, o que os investigadores estão a construir e o que as empresas realmente precisam permanecem desconectados.

As principais empresas de tecnologia e laboratórios acadêmicos estão atualmente envolvidos em uma corrida armamentista pela precisão numérica, focados em liderar as tabelas de classificação de previsões bem a tempo para a próxima grande conferência de IA. Entretanto, prestam relativamente pouca atenção à resolução de problemas complexos do mundo actual, que, ironicamente, representam os desafios científicos mais difíceis.

O ponto cego: complexidade interconectada

Aqui está o cerne do problema: nenhum dos atuais modelos básicos de nível superior foi concebido para prever as distribuições de probabilidade conjuntas de vários alvos dependentes.

Isso parece técnico, mas as implicações comerciais são enormes. No mundo actual, as variáveis ​​raramente se movem isoladamente.

  • Planejamento Urbano: Você não pode prever o fluxo de tráfego na rua principal sem entender como ele impacta (e é impactado por) o fluxo na 5ª Avenida.
  • Cadeia de mantimentos: A demanda pelo Produto A muitas vezes canibaliza a demanda pelo Produto B.
  • Financiar: Assuma o risco do portfólio. Para compreender a verdadeira exposição ao mercado, um gestor de carteira não calcula simplesmente o pior cenário para cada instrumento isoladamente. Em vez disso, eles realizam simulações conjuntas. Não se pode simplesmente resumir os riscos individuais; você precisa de um modelo que entenda como os ativos se movem junto.

O mundo é uma teia confusa e emaranhada de dependências. Os modelos básicos atuais tendem a tratá-lo como uma série de problemas isolados de livros didáticos. Até que estes modelos consigam compreender essa complexidade, produzindo um modelo que capte como as variáveis ​​dançam juntas, eles não substituirão as soluções existentes.

Portanto, por enquanto, seus fluxos de trabalho manuais estão seguros. Mas confundir esta lacuna temporária com uma rede de segurança permanente pode ser um erro grave.

Os limites de aprendizagem profunda de hoje são os problemas de engenharia resolvidos de amanhã

As peças que faltam, como a modelagem de distribuições conjuntas complexas, não são leis impossíveis da física; eles são simplesmente os próximos obstáculos de engenharia no roteiro.

Se a velocidade de 2025 nos ensinou alguma coisa, é que os obstáculos “impossíveis” da engenharia têm o hábito de desaparecer da noite para o dia. No momento em que essas questões específicas forem abordadas, a curva de capacidade não aumentará apenas. Vai aumentar.

Conclusão: o ponto de inflexão está mais próximo do que parece

Apesar das lacunas atuais, a trajetória é clara e o tempo está a contar. A barreira entre a IA “preditiva” e a “generativa” está desmoronando ativamente.

Estamos caminhando rapidamente em direção a um futuro onde não treinaremos apenas modelos com base em dados históricos; consultamos modelos de fundação que possuem os “priorais” de mil indústrias. Estamos caminhando em direção a um cenário unificado de ciência de dados, onde o resultado não é apenas um número, mas um modelo sofisticado e personalizado gerado dinamicamente.

A revolução não espera pela perfeição. Ele está iterando em direção a isso em uma velocidade vertiginosa. Os líderes que reconhecerem esta mudança e começarem a tratar a GenAI como uma ferramenta séria para dados estruturados antes que um modelo perfeito chegue ao mercado serão aqueles que definirão a próxima década da ciência de dados. O resto estará tentando recuperar o atraso em um jogo que já mudou.

Estamos pesquisando ativamente essas fronteiras na DataRobot para preencher a lacuna entre capacidades generativas e precisão preditiva. Este é apenas o começo da conversa. Fique ligado: estamos ansiosos para compartilhar nossos insights e progresso com você em breve.

Enquanto isso, você pode aprender mais sobre o DataRobot e explorar a plataforma com um teste gratuito.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *