AI com orçamento – hackster.io



AI com orçamento – hackster.io

Muito esforço foi feito para melhorar as capacidades de grandes modelos de idiomas (LLMS) nos últimos anos. Agora, podemos estar perto de esgotar o que pode ser alcançado com métodos de força bruta, como aumentar o tamanho dos conjuntos de dados de treinamento e aumentar o número de parâmetros em um modelo. Quando um LLM já foi treinado no texto de toda a Web, não há muito mais informações digitais que possam ser adicionadas. E com modelos já superando um trilhão de parâmetros, está cada vez mais impraticável a partir da perspectiva do consumo de energia e dos recursos computacionais disponíveis para torná -los maiores.

A escala de tempo de teste é uma nova abordagem interessante que pode manter a bola avançando. Ele aprimora o desempenho de um modelo aumentando o tempo de computação durante a inferência, em vez de depender apenas de pré -treinamento extenso. Esse conceito vem ganhando muita tração desde que o modelo O1 do OpenAI demonstrou forte desempenho de raciocínio por meio de técnicas de escala no tempo de teste. No entanto, a interpretação do OpenAI de diverge “aberto” do entendimento comum, portanto a metodologia não foi tornada pública.

Isso levou uma equipe de pesquisadores da Universidade de Stanford a fazer uma rachadura no desenvolvimento de sua própria solução de escala no tempo de teste, com forte desempenho de raciocínio. Seu método, chamado Forçando orçamentopermite que eles controlem quanto esforço computacional um LLM gasta durante a inferência, gerenciando essencialmente a duração e a profundidade de seu processo de raciocínio. O método envolve forçar um modelo a parar de raciocinar cedo ou incentivá -lo a pensar mais tempo quando tentaria concluir sua resposta. Essa abordagem mostrou resultados promissores para obter modelos para verificar novamente seu raciocínio e corrigir erros que, de outra forma, poderiam passar despercebidos.

Para testar a eficácia da força do orçamento, os pesquisadores criaram um conjunto de dados pequeno, mas cuidadosamente com curadoria, chamado S1K, composto por 1.000 perguntas combinadas com traços detalhados de raciocínio. Essas perguntas foram selecionadas com base em três fatores-chave-dificuldade, diversidade e qualidade-garantindo que o modelo aprenda com um conjunto de dados bem equilibrado. O modelo usado para teste, S1-32B, foi treinado usando o ajuste fino supervisionado nesse conjunto de dados e, em seguida, avaliado com o orçamento forçando aplicado durante a inferência.

Os resultados foram bastante impressionantes. O modelo S1-32B, equipado com forçamento do orçamento, superou o modelo de previsão O1 da OpenAI em benchmarks de matemática competitivos, incluindo matemática e AIME24, em até 27%. Isso demonstra que a escala no tempo de teste, quando controlada adequadamente, pode aumentar significativamente a capacidade de raciocínio de um modelo sem exigir um aumento nos dados de treinamento ou no tamanho do modelo.

A equipe também comparou seu método com técnicas alternativas de escala de tempo de teste, como controle de comprimento condicional e amostragem de rejeição. No processo, eles introduziram três métricas para medir a eficácia: controlabilidade (quão bem o método regula o esforço computacional), a eficiência da escala (como o desempenho melhora com o aumento da computação) e o desempenho geral. A força de orçamento teve um desempenho melhor nos três critérios, confirmando sua eficácia no aumento dos recursos de raciocínio do LLM.

Avançando, essa abordagem pode desempenhar um papel em tornar os modelos de IA mais inteligentes, mais confiáveis ​​e mais eficientes. Em direção a esse objetivo, os resultados da pesquisa, juntamente com o conjunto de dados e códigoforam feitos de código aberto para permitir que outras pessoas da comunidade de IA desenvolvam o trabalho.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *