Habilitando pequenos modelos de linguagem para resolver tarefas complexas de raciocínio | Notícias do MIT



Habilitando pequenos modelos de linguagem para resolver tarefas complexas de raciocínio | Notícias do MIT

À medida que os modelos de linguagem (LMs) melhoram em tarefas como geração de imagens, perguntas triviais e matemática simples, você pode pensar que o raciocínio humano está chegando. Na realidade, eles ainda nos seguem por uma larga margem em tarefas complexas. Experimente jogar Sudoku com um, por exemplo, onde você preenche os números de um a nove de forma que cada um apareça apenas uma vez nas colunas, linhas e seções de uma grade nove por nove. Seu oponente AI não conseguirá preencher as caixas sozinho ou o fará de forma ineficiente, embora possa verificar se você preencheu as suas corretamente.

Esteja um LM tentando resolver quebra-cabeças avançados, projetar moléculas ou escrever provas matemáticas, o sistema se esforça para responder a solicitações abertas que têm regras rígidas a serem seguidas. O modelo é melhor para dizer aos usuários como abordar esses desafios do que para tentar enfrentá-los sozinho. Além disso, a resolução prática de problemas exige que os LM considerem uma ampla gama de opções, ao mesmo tempo que seguem as restrições. LMs pequenos não conseguem fazer isso de forma confiável por conta própria; modelos de linguagem grandes (LLMs) às vezes podem, especialmente se forem otimizados para tarefas de raciocínio, mas demoram um pouco para responder e usam muito poder de computação.

Esta situação levou investigadores do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL) do MIT a desenvolver uma abordagem colaborativa onde um LLM faz o planeamento e depois divide o trabalho braçal dessa estratégia entre os mais pequenos. Seu método ajuda pequenos LMs a fornecer respostas mais precisas do que LLMs líderes como o OpenAI GPT-4oe abordar a precisão dos principais sistemas de raciocínio, como o1embora seja mais eficiente que ambos. Sua estrutura, chamada “Restrições Distribucionais por Programação de Inferência com Modelos de Linguagem” (ou “DisCIPL”), tem um modelo grande que orienta modelos “seguidores” menores em direção a respostas precisas ao escrever coisas como sinopses de texto, listas de compras com orçamentos e itinerários de viagem.

O funcionamento interno do DisCIPL é muito parecido com a contratação de uma empresa para um determinado trabalho. Você fornece uma solicitação a um modelo de “chefe” e ele considera cuidadosamente como realizar esse projeto. Em seguida, o LLM transmite essas instruções e orientações de forma clara para modelos menores. Ele corrige as saídas dos LMs seguidores quando necessário – por exemplo, substituindo a frase de um modelo que não cabe em um poema por uma opção melhor de outro.

O LLM se comunica com seus seguidores usando uma linguagem que todos entendem – ou seja, uma linguagem de programação para controlar LMs chamada “LLaMPPL.” Desenvolvido pelo Projeto de Computação Probabilística do MIT em 2023, este programa permite aos usuários codificar regras específicas que orientam um modelo em direção a um resultado desejado. Por exemplo, LLaMPPL pode ser usado para produzir código sem erros incorporando as regras de um determinado idioma em suas instruções. Instruções como “escrever oito versos de poesia onde cada verso tenha exatamente oito palavras” são codificadas em LLaMPPL, enfileirando modelos menores para contribuir com diferentes partes da resposta.

O estudante de doutorado do MIT, Gabriel Grand, que é o autor principal de um papel apresentando este trabalho, diz que o DisCIPL permite que os LMs orientem uns aos outros em direção às melhores respostas, o que melhora sua eficiência geral. “Estamos trabalhando para melhorar a eficiência de inferência dos LMs, especialmente nas muitas aplicações modernas desses modelos que envolvem a geração de resultados sujeitos a restrições”, acrescenta Grand, que também é pesquisador do CSAIL. “Os modelos de linguagem estão consumindo mais energia à medida que as pessoas os utilizam mais, o que significa que precisamos de modelos que possam fornecer respostas precisas usando o mínimo de poder computacional.”

“É realmente emocionante ver novas alternativas à inferência de modelos de linguagem padrão”, diz Alane Suhr, professor assistente da Universidade da Califórnia em Berkeley, que não esteve envolvido na pesquisa. “Este trabalho convida novas abordagens para modelagem de linguagem e LLMs que reduzem significativamente a latência de inferência por meio de paralelização, exigem significativamente menos parâmetros do que os LLMs atuais e até melhoram o desempenho da tarefa em relação à inferência serializada padrão. O trabalho também apresenta oportunidades para explorar a transparência, interpretabilidade e controlabilidade dos resultados do modelo, o que ainda é um enorme problema em aberto na implantação dessas tecnologias.”

Uma história de azarão

Você pode pensar que LMs de maior escala são “melhores” em prompts complexos do que LMs menores quando se trata de precisão e eficiência. DisCIPL sugere um contraponto surpreendente para essas tarefas: se você puder combinar os pontos fortes de modelos menores, poderá ver um aumento de eficiência com resultados semelhantes.

Os pesquisadores observam que, em teoria, você pode conectar dezenas de LMs para trabalharem juntos na estrutura DisCIPL, independentemente do tamanho. Nos experimentos de escrita e raciocínio, eles usaram o GPT-4o como seu “planejador LM”, que é um dos modelos que ajuda o ChatGPT a gerar respostas. Ele debateu um plano para vários “Lhama-3.2-1B” modelos (sistemas menores desenvolvidos pela Meta), nos quais esses LMs preenchiam cada palavra (ou token) da resposta.

Essa abordagem coletiva competiu com três outras comparáveis: uma linha de base somente para seguidores alimentada por Llama-3.2-1B, GPT-4o trabalhando por conta própria e o sistema de raciocínio o1 líder do setor que ajuda ChatGPT a descobrir questões mais complexas, como solicitações de codificação e problemas matemáticos.

DisCIPL apresentou pela primeira vez a capacidade de escrever frases e parágrafos que seguem regras explícitas. Os modelos receberam instruções muito específicas – por exemplo, escrever uma frase com exatamente 18 palavras, onde a quarta palavra deve ser “Glasgow”, a oitava deve ser “in” e a 11ª deve ser “e”. O sistema foi notavelmente hábil em lidar com essa solicitação, elaborando resultados coerentes e ao mesmo tempo alcançando precisão e coerência semelhantes a o1.

Mais rápido, mais barato, melhor

Esta experiência também revelou que os principais componentes do DisCIPL eram muito mais baratos do que os sistemas de última geração. Por exemplo, enquanto os modelos de raciocínio existentes, como o o1 da OpenAI, realizam raciocínio em texto, o DisCIPL “raciocina” escrevendo código Python, que é mais compacto. Na prática, os pesquisadores descobriram que o DisCIPL levou a um raciocínio 40,1% mais curto e a uma economia de custos de 80,2% em relação ao o1.

Os ganhos de eficiência do DisCIPL decorrem em parte do uso de pequenos modelos Llama como seguidores, que são 1.000 a ten.000 vezes mais baratos por token do que modelos de raciocínio comparáveis. Isso significa que o DisCIPL é mais “escalável” – os pesquisadores conseguiram executar dezenas de modelos Llama em paralelo por uma fração do custo.

Essas não foram as únicas descobertas surpreendentes, segundo os pesquisadores do CSAIL. Seu sistema também teve um bom desempenho em relação ao o1 em tarefas do mundo actual, como fazer listas de ingredientes, planejar um itinerário de viagem e redigir propostas de financiamento com limites de palavras. Enquanto isso, o GPT-4o lutava com essas solicitações e, ao escrever testes, muitas vezes não conseguia colocar palavras-chave nas partes corretas das frases. A linha de base somente para seguidores terminou essencialmente em último lugar, pois tinha dificuldades em seguir as instruções.

“Nos últimos anos, vimos alguns resultados impressionantes de abordagens que utilizam modelos de linguagem para ‘formalizar automaticamente‘problemas em matemática e robótica, representando-os com código”, diz o autor sênior Jacob Andreas, que é professor associado de engenharia elétrica e ciência da computação do MIT e investigador principal do CSAIL. “O que acho mais interessante neste artigo é o fato de que agora podemos usar LMs para formalizar automaticamente a própria geração de texto, permitindo os mesmos tipos de ganhos de eficiência e garantias que vimos nesses outros domínios.”

No futuro, os pesquisadores planejam expandir essa estrutura para uma abordagem mais totalmente recursiva, onde será possível usar o mesmo modelo tanto para o líder quanto para os seguidores. Grand acrescenta que o DisCIPL poderia ser estendido a tarefas de raciocínio matemático, onde as respostas são mais difíceis de verificar. Eles também pretendem testar a capacidade do sistema de atender às preferências difusas dos usuários, em vez de seguir restrições rígidas, que não podem ser descritas no código de forma tão explícita. Pensando ainda maior, a equipe espera usar os maiores modelos possíveis disponíveis, embora observe que tais experimentos são computacionalmente caros.

Grand e Andreas escreveram o artigo ao lado do investigador principal do CSAIL e professor do MIT, Joshua Tenenbaum, bem como do principal cientista pesquisador do Departamento de Cérebro e Ciências Cognitivas do MIT, Vikash Mansinghka, e do professor assistente da Universidade de Yale, Alex Lew SM ’20 PhD ’25. Os pesquisadores do CSAIL apresentaram o trabalho na Conferência sobre Modelagem de Linguagem em outubro e no workshop “Implantando Agentes Autônomos: Lições, Riscos e Impacto no Mundo Actual” da IVADO em novembro.

Seu trabalho foi apoiado, em parte, pelo MIT Quest for Intelligence, pela Siegel Household Basis, pelo MIT-IBM Watson AI Lab, pela Sloan Analysis Fellowship, pela Intel, pelo Air Drive Workplace of Scientific Analysis, pela Protection Superior Analysis Initiatives Company, pelo Workplace of Naval Analysis e pela Nationwide Science Basis.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *