AI com orçamento - hackster.io -itstec.com.br. All rights reserved.

Muito esforço foi feito para melhorar as capacidades de grandes modelos de idiomas (LLMS) nos últimos anos. Agora, podemos estar perto de esgotar o que pode ser alcançado com métodos de força bruta, como aumentar o tamanho dos conjuntos de dados de treinamento e aumentar o número de parâmetros em um modelo. Quando um LLM já foi treinado no texto de toda a Web, não há muito mais informações digitais que possam ser adicionadas. E com modelos já superando um trilhão de parâmetros, está cada vez mais impraticável a partir da perspectiva do consumo de energia e dos recursos computacionais disponíveis para torná -los maiores.

A escala de tempo de teste é uma nova abordagem interessante que pode manter a bola avançando. Ele aprimora o desempenho de um modelo aumentando o tempo de computação durante a inferência, em vez de depender apenas de pré -treinamento extenso. Esse conceito vem ganhando muita tração desde que o modelo O1 do OpenAI demonstrou forte desempenho de raciocínio por meio de técnicas de escala no tempo de teste. No entanto, a interpretação do OpenAI de diverge “aberto” do entendimento comum, portanto a metodologia não foi tornada pública.

O escala de tempo de teste aumenta a precisão do modelo (📷: N. Muennighff et al.)

Isso levou uma equipe de pesquisadores da Universidade de Stanford a fazer uma rachadura no desenvolvimento de sua própria solução de escala no tempo de teste, com forte desempenho de raciocínio. Seu método, chamado Forçando orçamentopermite que eles controlem quanto esforço computacional um LLM gasta durante a inferência, gerenciando essencialmente a duração e a profundidade de seu processo de raciocínio. O método envolve forçar um modelo a parar de raciocinar cedo ou incentivá -lo a pensar mais tempo quando tentaria concluir sua resposta. Essa abordagem mostrou resultados promissores para obter modelos para verificar novamente seu raciocínio e corrigir erros que, de outra forma, poderiam passar despercebidos.

Para testar a eficácia da força do orçamento, os pesquisadores criaram um conjunto de dados pequeno, mas cuidadosamente com curadoria, chamado S1K, composto por 1.000 perguntas combinadas com traços detalhados de raciocínio. Essas perguntas foram selecionadas com base em três fatores-chave-dificuldade, diversidade e qualidade-garantindo que o modelo aprenda com um conjunto de dados bem equilibrado. O modelo usado para teste, S1-32B, foi treinado usando o ajuste fino supervisionado nesse conjunto de dados e, em seguida, avaliado com o orçamento forçando aplicado durante a inferência.

Os resultados foram bastante impressionantes. O modelo S1-32B, equipado com forçamento do orçamento, superou o modelo de previsão O1 da OpenAI em benchmarks de matemática competitivos, incluindo matemática e AIME24, em até 27%. Isso demonstra que a escala no tempo de teste, quando controlada adequadamente, pode aumentar significativamente a capacidade de raciocínio de um modelo sem exigir um aumento nos dados de treinamento ou no tamanho do modelo.

O conjunto de dados S1K é eficiente, treinando modelos precisos em poucas amostras (📷: N. Muennighff et al.)

A equipe também comparou seu método com técnicas alternativas de escala de tempo de teste, como controle de comprimento condicional e amostragem de rejeição. No processo, eles introduziram três métricas para medir a eficácia: controlabilidade (quão bem o método regula o esforço computacional), a eficiência da escala (como o desempenho melhora com o aumento da computação) e o desempenho geral. A força de orçamento teve um desempenho melhor nos três critérios, confirmando sua eficácia no aumento dos recursos de raciocínio do LLM.

Avançando, essa abordagem pode desempenhar um papel em tornar os modelos de IA mais inteligentes, mais confiáveis e mais eficientes. Em direção a esse objetivo, os resultados da pesquisa, juntamente com o conjunto de dados e códigoforam feitos de código aberto para permitir que outras pessoas da comunidade de IA desenvolvam o trabalho.

AI com orçamento – hackster.io

Deixe um comentário Cancelar resposta

Dia de treinamento do capítulo LEDA NC inverno 2025

Fórum World de Tecnologia de Conservação e Drones (GCTDF 2026) – sUAS Information

Abordagem computacional estabiliza metaleno para nanotecnologia

Materiais compósitos de mudança de fase suportados por nanotubos de carbono/grafite altamente orientados com alta condutividade térmica e desempenho de conversão fototérmica

Caracterizando estados quânticos de muitos corpos – Physics World

Melhorando a eficácia antimicrobiana do EPI com nanopartículas de ZnO

Ericsson apoia 5G privado – para um ROI claro, além de aumento de demanda, tráfego e escala

A assinatura do Google One de banda larga da Airtel House chega por 6 meses

Linux Basis lança Agentic AI Basis

A inovação acontece abertamente: Cisco se junta à Agentic AI Basis (AAIF)

As usinas virtuais estão tendo seu momento

Linux Basis lança Agentic AI Basis