
Para tornar os modelos de linguagem grandes (LLMs) mais precisos ao responder perguntas mais difíceis, os pesquisadores podem deixar o modelo passar mais tempo pensando em soluções potenciais.
Mas abordagens comuns que dão aos LLMs essa capacidade estabelecem um orçamento computacional fixo para cada problema, independentemente de quão complexo ele seja. Isto significa que o LLM pode desperdiçar recursos computacionais em questões mais simples ou ser incapaz de resolver problemas complexos que requerem mais raciocínio.
Para resolver isso, os pesquisadores do MIT desenvolveram uma maneira mais inteligente de alocar esforço computacional à medida que o LLM resolve um problema. Seu método permite que o modelo ajuste dinamicamente seu orçamento computacional com base na dificuldade da questão e na probabilidade de que cada solução parcial leve à resposta correta.
Os pesquisadores descobriram que sua nova abordagem permitiu que os LLMs usassem apenas metade da computação dos métodos existentes, ao mesmo tempo em que alcançavam precisão comparável em uma série de questões com dificuldades variadas. Além disso, seu método permite que LLMs menores e com menos recursos tenham um desempenho tão bom ou até melhor que modelos maiores em problemas complexos.
Ao melhorar a fiabilidade e a eficiência dos LLMs, especialmente quando estes abordam tarefas de raciocínio complexas, esta técnica poderia reduzir o consumo de energia dos sistemas generativos de IA e permitir a utilização de LLMs em aplicações de maior risco e sensíveis ao tempo.
“O custo computacional da inferência tornou-se rapidamente um grande gargalo para os provedores de modelos de fronteira, e eles estão tentando ativamente encontrar maneiras de melhorar a eficiência computacional de acordo com as consultas dos usuários. Por exemplo, o lançamento recente do GPT-5.1 destaca a eficácia da abordagem de ‘raciocínio adaptativo’ que nosso artigo propõe. Ao dotar os modelos com a capacidade de saber o que eles não sabem, podemos permitir que eles gastem mais computação nos problemas mais difíceis e nos caminhos de solução mais promissores, e usem muito menos tokens nos mais fáceis. Isso torna o raciocínio mais confiável e muito mais eficiente”, diz Navid Azizan, professor assistente de desenvolvimento de carreira Alfred H. e Jean M. Hayes no Departamento de Engenharia Mecânica e no Instituto de Dados, Sistemas e Sociedade (IDSS), investigador principal do Laboratório de Sistemas de Informação e Decisão (LIDS) e autor sênior de um artigo sobre esta técnica.
Azizan é acompanhado no artigo pelo autor principal Younger-Jin Park, um estudante de pós-graduação do LIDS/MechE; Kristjan Greenewald, cientista pesquisador do MIT-IBM Watson AI Lab; Kaveh Alim, estudante de pós-graduação do IDSS; e Hao Wang, cientista pesquisador do MIT-IBM Watson AI Lab e da Crimson Hat AI Innovation Workforce. A pesquisa está sendo apresentada esta semana na Conferência sobre Sistemas de Processamento de Informação Neural.
Computação para contemplação
Uma abordagem recente chamada escala de tempo de inferência permite que um modelo de linguagem grande leve mais tempo para raciocinar sobre problemas difíceis.
Usando a escala de tempo de inferência, o LLM pode gerar múltiplas tentativas de solução de uma só vez ou explorar diferentes caminhos de raciocínio e, em seguida, escolher os melhores a seguir dentre esses candidatos.
Um modelo separado, conhecido como modelo de recompensa de processo (PRM), pontua cada solução potencial ou caminho de raciocínio. O LLM usa essas pontuações para identificar as mais promissoras.
As abordagens típicas de escalonamento de tempo de inferência atribuem uma quantidade fixa de computação para o LLM analisar o problema e raciocinar sobre as etapas.
Em vez disso, o método dos pesquisadores, conhecido como escalonamento adaptativo de instância, ajusta dinamicamente o número de soluções potenciais ou etapas de raciocínio com base na probabilidade de sucesso, à medida que o modelo luta com o problema.
“É assim que os humanos resolvem problemas. Apresentamos algumas soluções parciais e depois decidimos: devo prosseguir com alguma delas, ou parar e rever, ou mesmo voltar ao passo anterior e continuar a resolver o problema a partir daí?” Wang explica.
Para fazer isso, a estrutura utiliza o PRM para estimar a dificuldade da questão, ajudando o LLM a avaliar quanto orçamento computacional utilizar para gerar e raciocinar sobre soluções potenciais.
A cada etapa do processo de raciocínio do modelo, o PRM analisa as perguntas e as respostas parciais e avalia o quão promissoras são cada uma para chegar à solução certa. Se o LLM for mais confiante, poderá reduzir o número de soluções potenciais ou trajetórias de raciocínio a seguir, economizando recursos computacionais.
Mas os investigadores descobriram que os PRMs existentes muitas vezes sobrestimam a probabilidade de sucesso do modelo.
Superando o excesso de confiança
“Se confiássemos apenas nos PRMs atuais, que muitas vezes superestimam an opportunity de sucesso, nosso sistema reduziria o orçamento computacional de forma muito agressiva. Portanto, primeiro tivemos que encontrar uma maneira de calibrar melhor os PRMs para tornar o escalonamento do tempo de inferência mais eficiente e confiável”, diz Park.
Os pesquisadores introduziram um método de calibração que permite aos PRM gerar uma série de pontuações de probabilidade em vez de um único valor. Desta forma, o PRM cria estimativas de incerteza mais fiáveis que refletem melhor a verdadeira probabilidade de sucesso.
Com um PRM bem calibrado, sua estrutura de escalonamento adaptativo de instância pode usar as pontuações de probabilidade para reduzir efetivamente a computação, mantendo a precisão dos resultados do modelo.
Quando eles compararam seu método com abordagens padrão de escala de tempo de inferência em uma série de tarefas de raciocínio matemático, utilizaram menos computação para resolver cada problema e, ao mesmo tempo, alcançaram precisão semelhante.
“A beleza da nossa abordagem é que esta adaptação acontece rapidamente, à medida que o problema é resolvido, em vez de acontecer de uma só vez no início do processo”, diz Greenewald.
No futuro, os pesquisadores estão interessados em aplicar esta técnica a outras aplicações, como geração de código e agentes de IA. Eles também estão planejando explorar usos adicionais para seu método de calibração PRM, como aprendizado por reforço e ajuste fino.
“Os funcionários humanos aprendem no trabalho – alguns CEOs até começaram como estagiários – mas os agentes de hoje permanecem em grande parte peças estáticas de software program probabilístico. Trabalhos como este artigo são um passo importante para mudar isso: ajudar os agentes a entender o que não sabem e construir mecanismos para autoaperfeiçoamento contínuo. Esses recursos são essenciais se quisermos agentes que possam operar com segurança, se adaptar a novas situações e fornecer resultados consistentes em escala”, diz Akash Srivastava, diretor e arquiteto-chefe de Core AI da IBM Software program, que não esteve envolvido com isso. trabalho.
Este trabalho foi financiado, em parte, pelo MIT-IBM Watson AI Lab, pelo MIT-Amazon Science Hub, pelo MIT-Google Program for Computing Innovation e pelo MathWorks.