The Energy of RLVR: Treinando um modelo de raciocínio SQL líder em Databricks -itstec.com.br. All rights reserved.

No Databricks, usamos o aprendizado de reforço (RL) para desenvolver modelos de raciocínio para problemas que nossos clientes enfrentam e para nossos produtos, como o Assistente de Databricks e AI/BI Genie. Essas tarefas incluem gerar código, análise de dados, integração de conhecimento organizacional, avaliação específica do domínio e Extração de informações (ou seja) de documentos. Tarefas como codificação ou extração de informações geralmente têm recompensas verificáveis – a correção pode ser verificada diretamente (por exemplo, testes de passagem, etiquetas correspondentes). Isso permite a aprendizagem de reforço sem um modelo de recompensa instruído, conhecido como RLVR (aprendizado de reforço com recompensas verificáveis). Em outros domínios, pode ser necessário um modelo de recompensa personalizado – quais Databricks também suportam. Nesta postagem, focamos na configuração RLVR.

Como exemplo do poder do RLVR, aplicamos nossa pilha de treinamento a um benchmark acadêmico fashionable na ciência de dados chamada PÁSSARO. Esta referência estuda a tarefa de transformar uma consulta de linguagem pure em um código SQL que é executado em um banco de dados. Esse é um problema importante para os usuários do Databricks, permitindo que especialistas não-SQL conversem com seus dados. É também uma tarefa desafiadora, onde mesmo os melhores LLMs proprietários não funcionam bem fora da caixa. Enquanto Chook não captura completamente a complexidade do mundo actual dessa tarefa nem a pura completa de produtos reais, como o Genie de Databricks AI/BI (Figura 1), sua popularidade nos permite medir a eficácia do RLVR para ciência de dados em uma referência bem compreendida.

Tabela de classificação de pássaros — Figura 2: Resultados do nosso estudo sobre a referência fashionable de pássaros. Nós nos concentramos na categoria de modelo único e não usamos a autoconsistência.

Nós nos concentramos em melhorar um modelo básico de codificação SQL usando o RLVR, isolando esses ganhos de melhorias impulsionadas por projetos agênticos. O progresso é medido na faixa única de geração única da tabela de líderes de pássaros (ou seja, sem autoconsistência), que avalia em um conjunto de testes privados.

Estabelecemos uma nova precisão de teste de última geração de 73,5% nesta referência. Fizemos isso usando nossa pilha RLVR padrão e treinamento apenas no conjunto de treinamento de aves. A melhor pontuação anterior nesta faixa foi de 71,8%(1)alcançado aumentando o conjunto de treinamento de aves com dados adicionais e usando um LLM proprietário (GPT-4O). Nossa pontuação é substancialmente melhor do que o modelo base unique e o LLMS proprietário (veja a Figura 2). Este resultado mostra a simplicidade e a generalidade do RLVR: alcançamos essa pontuação com dados prontos para uso e os componentes RL padrão em que estamos lançando Bricks do agentee o fizemos em nossa primeira submissão a Chook. O RLVR é uma poderosa linha de base que os desenvolvedores de IA devem considerar sempre que dados de treinamento suficientes estiverem disponíveis.

Construímos nossa submissão com base no conjunto de dev -pássaro. Descobrimos que o QWEN 2.5 32B Coder Instruct foi o melhor ponto de partida. Nós ajustamos este modelo usando os dois Databricks Tao – Um método RL offline e nossa pilha RLVR. Essa abordagem, juntamente com a seleção cuidadosa e de modelos, foi suficiente para nos levar ao topo da referência de pássaros. Este resultado é uma demonstração pública das mesmas técnicas que estamos usando para melhorar os produtos de banco de dados populares, como AI/BI Genie e Assistente e para ajudar nossos clientes a construir agentes usando Bricks do agente.

Nossos resultados destacam o poder do RLVR e a eficácia de nossa pilha de treinamento. Os clientes do banco de dados também têm relatado Ótimos resultados usando nossa pilha em seus domínios de raciocínio. Achamos que esta receita é poderosa, composta e amplamente aplicável a uma variedade de tarefas. Se você quiser visualizar o RLVR no Databricks, entre em contato conosco aqui.

¹Veja a Tabela 1 em https://arxiv.org/pdf/2505.20315

Autores: Alnur Ali, Ashutosh Baheti, Jonathan Chang, Ta-Chung Chi, Brandon Cui, Andrew Drozdov, Jonathan Frankle, Abhay Gupta, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Kumar Misra, Jose Javier Gonzalez Ortiz, Krista Opsahl-Ong

The Energy of RLVR: Treinando um modelo de raciocínio SQL líder em Databricks

Deixe um comentário Cancelar resposta

Plataforma receptora GNSS do sistema InTerra SmarTarget

Quantum Techniques e ADV Protection assinam memorando de entendimento para fortalecer a cooperação de defesa germano-lituana – sUAS Information

Nanopartículas de lantanídeos “ligadas” por transferência de energia tripla

Diferença significativa na transferência de carga nas etapas das superfícies Ag (100) e Cu (100) reveladas pela ressonância de emissão de campo

Movimento de alta precisão para indústrias exigentes

Um novo nanorreator sono-ativável induz geração de juglona intratumoral de precisão e piroptose mediada por caspase 3/GSDME para tratamento de câncer de bexiga | Revista de Nanobiotecnologia

IIGF 2025 se reunirá em Nova Delhi de 27 a 28 de novembro

“Muito acessível e muito rápido” – 5G privado plug-and-play

Amazon Route 53 lança recuperação acelerada para gerenciamento de registros DNS públicos

AWS planeja expansão de IA e supercomputação para o governo dos EUA

Podcast: A revolução dos carros conectados finalmente chegou ou ainda estamos em ponto morto?

Nanopartículas de lantanídeos “ligadas” por transferência de energia tripla