The Energy of RLVR: Treinando um modelo de raciocínio SQL líder em Databricks


No Databricks, usamos o aprendizado de reforço (RL) para desenvolver modelos de raciocínio para problemas que nossos clientes enfrentam e para nossos produtos, como o Assistente de Databricks e AI/BI Genie. Essas tarefas incluem gerar código, análise de dados, integração de conhecimento organizacional, avaliação específica do domínio e Extração de informações (ou seja) de documentos. Tarefas como codificação ou extração de informações geralmente têm recompensas verificáveis – a correção pode ser verificada diretamente (por exemplo, testes de passagem, etiquetas correspondentes). Isso permite a aprendizagem de reforço sem um modelo de recompensa instruído, conhecido como RLVR (aprendizado de reforço com recompensas verificáveis). Em outros domínios, pode ser necessário um modelo de recompensa personalizado – quais Databricks também suportam. Nesta postagem, focamos na configuração RLVR.

The Energy of RLVR: Treinando um modelo de raciocínio SQL líder em Databricks
Figura 1: Databricks AI/BI Genie Assistente em ação. A Genie abrange uma série de problemas de clientes do Text2SQL (gerando código SQL para consultas de linguagem pure), visualizando resultados, solicitando esclarecimentos, and so forth.

Como exemplo do poder do RLVR, aplicamos nossa pilha de treinamento a um benchmark acadêmico fashionable na ciência de dados chamada PÁSSARO. Esta referência estuda a tarefa de transformar uma consulta de linguagem pure em um código SQL que é executado em um banco de dados. Esse é um problema importante para os usuários do Databricks, permitindo que especialistas não-SQL conversem com seus dados. É também uma tarefa desafiadora, onde mesmo os melhores LLMs proprietários não funcionam bem fora da caixa. Enquanto Chook não captura completamente a complexidade do mundo actual dessa tarefa nem a pura completa de produtos reais, como o Genie de Databricks AI/BI (Figura 1), sua popularidade nos permite medir a eficácia do RLVR para ciência de dados em uma referência bem compreendida.

Tabela de classificação de pássaros
Figura 2: Resultados do nosso estudo sobre a referência fashionable de pássaros. Nós nos concentramos na categoria de modelo único e não usamos a autoconsistência.

Nós nos concentramos em melhorar um modelo básico de codificação SQL usando o RLVR, isolando esses ganhos de melhorias impulsionadas por projetos agênticos. O progresso é medido na faixa única de geração única da tabela de líderes de pássaros (ou seja, sem autoconsistência), que avalia em um conjunto de testes privados.

Estabelecemos uma nova precisão de teste de última geração de 73,5% nesta referência. Fizemos isso usando nossa pilha RLVR padrão e treinamento apenas no conjunto de treinamento de aves. A melhor pontuação anterior nesta faixa foi de 71,8%(1)alcançado aumentando o conjunto de treinamento de aves com dados adicionais e usando um LLM proprietário (GPT-4O). Nossa pontuação é substancialmente melhor do que o modelo base unique e o LLMS proprietário (veja a Figura 2). Este resultado mostra a simplicidade e a generalidade do RLVR: alcançamos essa pontuação com dados prontos para uso e os componentes RL padrão em que estamos lançando Bricks do agentee o fizemos em nossa primeira submissão a Chook. O RLVR é uma poderosa linha de base que os desenvolvedores de IA devem considerar sempre que dados de treinamento suficientes estiverem disponíveis.

Construímos nossa submissão com base no conjunto de dev -pássaro. Descobrimos que o QWEN 2.5 32B Coder Instruct foi o melhor ponto de partida. Nós ajustamos este modelo usando os dois Databricks Tao – Um método RL offline e nossa pilha RLVR. Essa abordagem, juntamente com a seleção cuidadosa e de modelos, foi suficiente para nos levar ao topo da referência de pássaros. Este resultado é uma demonstração pública das mesmas técnicas que estamos usando para melhorar os produtos de banco de dados populares, como AI/BI Genie e Assistente e para ajudar nossos clientes a construir agentes usando Bricks do agente.

Nossos resultados destacam o poder do RLVR e a eficácia de nossa pilha de treinamento. Os clientes do banco de dados também têm relatado Ótimos resultados usando nossa pilha em seus domínios de raciocínio. Achamos que esta receita é poderosa, composta e amplamente aplicável a uma variedade de tarefas. Se você quiser visualizar o RLVR no Databricks, entre em contato conosco aqui.

1Veja a Tabela 1 em https://arxiv.org/pdf/2505.20315

Autores: Alnur Ali, Ashutosh Baheti, Jonathan Chang, Ta-Chung Chi, Brandon Cui, Andrew Drozdov, Jonathan Frankle, Abhay Gupta, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Kumar Misra, Jose Javier Gonzalez Ortiz, Krista Opsahl-Ong

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *