Quando os pesquisadores estão construindo grandes modelos de idiomas (LLMs), eles pretendem maximizar o desempenho sob um orçamento computacional e financeiro específico. Como o treinamento de um modelo pode chegar a milhões de dólares, os desenvolvedores precisam ser criteriosos com as decisões de impacto de custos sobre, por exemplo, a arquitetura do modelo, otimizadores e os conjuntos de dados de treinamento antes de se comprometer com um modelo. Para antecipar a qualidade e a precisão das previsões de um grande modelo, os profissionais geralmente recorrem a leis de dimensionamento: usando modelos menores e mais baratos para tentar aproximar o desempenho de um modelo de destino muito maior. O desafio, no entanto, é que existem milhares de maneiras de criar uma lei de escala.
Novos trabalhos do MIT e do MIT-IBM Watson AI Lab Pesquisadores abordam isso, acumulando e liberando uma coleção de centenas de modelos e métricas relativas ao treinamento e desempenho para aproximar mais do que mil leis de escala. A partir disso, a equipe desenvolveu uma meta-análise e guia de como selecionar pequenos modelos e estimar leis de escala para diferentes famílias de modelos de LLM, para que o orçamento seja aplicado de maneira excellent para gerar previsões confiáveis de desempenho.
“A noção de que você pode querer tentar construir modelos matemáticos do processo de treinamento tem alguns anos, mas acho que o que period novo aqui é que a maior parte do trabalho que as pessoas estavam fazendo antes é dizer: ‘Podemos dizer algo post-hoc sobre o que aconteceu quando treinamos todos esses modelos, para que, quando estamos tentando fazer o que há de melhor, o que é um dos mais importantes, quando os melhores modelos, para que o melhor, o que aconteceu com o que se esforçamos para fazer o que se esforçamos para fazer o que se esforçamos para fazer o que se esforçarmos para que o melhor possa fazer o que o melhor, o que aconteceu? No Departamento de Engenharia Elétrica e Ciência da Computação e Principais Investigadores do MIT-IBM Watson AI Lab.
A pesquisa foi apresentada recentemente na Conferência Internacional sobre Aprendizagem de Machines por Andreas, juntamente com os pesquisadores do MIT-IBM Watson AI Lab, Leshem Choshen e Yang Zhang, da IBM Analysis.
Extrapolando desempenho
Não importa como você o corta, o desenvolvimento de LLMs é um empreendimento caro: da tomada de decisões sobre o número de parâmetros e tokens, seleção de dados e tamanho e técnicas de treinamento para determinar a precisão e o ajuste dos aplicativos e tarefas de destino. As leis de dimensionamento oferecem uma maneira de prever o comportamento do modelo, relacionando a perda de um grande modelo ao desempenho de modelos menores e menos custos da mesma família, evitando a necessidade de treinar completamente todos os candidatos. Principalmente, as diferenças entre os modelos menores são o número de parâmetros e o tamanho do treinamento de token. Segundo Choshen, elucidando as leis de escala não apenas permitem melhores decisões pré-treinamento, mas também democratizam o campo, permitindo que os pesquisadores sem vastos recursos compreendam e construam leis eficazes de escala.
A forma funcional das leis de escala é relativamente simples, incorporando componentes dos pequenos modelos que capturam o número de parâmetros e seu efeito de escala, o número de tokens de treinamento e seu efeito de escala e o desempenho da linha de base para a família de interesses modelo. Juntos, eles ajudam os pesquisadores a estimar a perda de desempenho de um alvo de grande modelo; Quanto menor a perda, melhor será provável que as saídas do modelo de destino sejam.
Essas leis permitem que as equipes de pesquisa pesem trade-offs com eficiência e testem a melhor forma de alocar recursos limitados. Eles são particularmente úteis para avaliar a escala de uma determinada variável, como o número de tokens e para o teste A/B de diferentes configurações de pré-treinamento.
Em geral, as leis de escala não são novas; No entanto, no campo da IA, eles emergiram à medida que os modelos cresciam e os custos dispararam. “É como se as leis de escala aparecessem em algum momento do campo”, diz Choshen. “Eles começaram a chamar a atenção, mas ninguém realmente testou o quão bom eles são e o que você precisa fazer para fazer uma boa lei de escala”. Além disso, as leis de escala também eram uma caixa preta, em certo sentido. “Sempre que as pessoas criam leis de dimensionamento no passado, sempre foi um modelo, ou uma família modelo e um conjunto de dados e um desenvolvedor”, diz Andreas. “Realmente não havia muita metanálise sistemática, pois todo mundo está treinando individualmente suas próprias leis de escala. Então, (queríamos saber), existem tendências de alto nível que você vê nessas coisas?”
Construindo melhor
Para investigar isso, Choshen, Andreas e Zhang criaram um grande conjunto de dados. Eles coletaram LLMs de 40 famílias modelo, incluindo Pythia, Choose, Olmo, Llama, Bloom, T5-Pil, ModuleFformer Combination-of-Consultants, GPT e outras famílias. Isso incluía 485 modelos exclusivos e pré-treinados e, quando disponíveis, dados sobre seus pontos de verificação de treinamento, custo computacional (flops), épocas de treinamento e sementes, juntamente com 1,9 milhão de métricas de desempenho de perdas e tarefas a jusante. Os modelos diferiram em suas arquiteturas, pesos e assim por diante. Usando esses modelos, os pesquisadores se encaixam em mais de 1.000 leis de escala e compararam sua precisão entre arquiteturas, tamanhos de modelo e regimes de treinamento, além de testar como o número de modelos, a inclusão de pontos de verificação de treinamento intermediário e o treinamento parcial impactou o poder preditivo das leis de escala para direcionar modelos. Eles usaram medições de erro relativo absoluto (ARE); Essa é a diferença entre a previsão da lei de escala e a perda observada de um modelo grande e treinado. Com isso, a equipe comparou as leis de dimensionamento e, após a análise, destilou recomendações práticas para os profissionais da IA sobre o que faz leis de escala eficazes.
Suas diretrizes compartilhadas passam pelo desenvolvedor através de etapas e opções a serem consideradas e expectativas. Primeiro, é elementary decidir sobre um orçamento de computação e precisão do modelo de destino. A equipe descobriu que 4 % são sobre a melhor precisão possível que se pode esperar devido ao ruído aleatório das sementes, mas até 20 % são ainda úteis para a tomada de decisões. Os pesquisadores identificaram vários fatores que melhoram as previsões, como incluindo pontos de verificação de treinamento intermediário, em vez de depender apenas de perdas finais; Isso tornou as leis de escala mais confiáveis. No entanto, os dados de treinamento muito precoces antes de 10 bilhões de tokens são barulhentos, reduzem a precisão e devem ser descartados. Eles recomendam priorizar o treinamento mais modelos em uma disseminação de tamanhos para melhorar a robustez da previsão da lei de escala, não apenas modelos maiores; A seleção de cinco modelos fornece um ponto de partida sólido.
Geralmente, incluindo modelos maiores melhora a previsão, mas os custos podem ser economizados treinando parcialmente o modelo de destino para cerca de 30 % de seu conjunto de dados e usando -o para extrapolação. Se o orçamento for consideravelmente restrito, os desenvolvedores devem considerar o treinamento de um modelo menor dentro da família do modelo de destino e dos parâmetros da lei de escala de emprestado de uma família modelo com arquitetura semelhante; No entanto, isso pode não funcionar para modelos de codificadores -decodificadores. Por fim, o grupo de pesquisa do MIT-IBM descobriu que, quando as leis de escala eram comparadas entre as famílias modelo, houve uma forte correlação entre dois conjuntos de hiperparâmetros, o que significa que três dos cinco hiperparâmetros explicaram quase toda a variação e provavelmente poderia capturar o comportamento do modelo. Juntos, essas diretrizes fornecem uma abordagem sistemática para tornar a estimativa da lei de escala mais eficiente, confiável e acessível para pesquisadores de IA que trabalham sob diferentes restrições orçamentárias.
Várias surpresas surgiram durante este trabalho: pequenos modelos parcialmente treinados ainda são muito preditivos e, além disso, os estágios de treinamento intermediários de um modelo totalmente treinado podem ser usados (como se fossem modelos individuais) para previsão de outro modelo de destino. “Basicamente, você não paga nada no treinamento, porque você já treinou o modelo completo, então o modelo semi-treinado, por exemplo, é apenas um subproduto do que você fez”, diz Choshen. Outra característica Andreas apontou foi que, quando agregado, a variabilidade entre as famílias modelo e diferentes experimentos saltou e period mais barulhenta do que o esperado. Inesperadamente, os pesquisadores descobriram que é possível utilizar as leis de escala em grandes modelos para prever o desempenho em modelos menores. Outras pesquisas no campo levantaram a hipótese de que modelos menores eram um “animal diferente” em comparação com os grandes; No entanto, Choshen discorda. “Se eles são totalmente diferentes, deveriam ter demonstrado comportamento totalmente diferente e não.”
Embora esse trabalho tenha se concentrado no tempo de treinamento do modelo, os pesquisadores planejam estender sua análise para modelar a inferência. Andreas diz que não é: “Como meu modelo melhora, pois adiciono mais dados de treinamento ou mais parâmetros, mas, ao mesmo tempo em que o deixo pensar por mais tempo, desenhe mais amostras. Acho que definitivamente há lições a serem aprendidas aqui sobre como criar modelos preditivos de quanto pensamento você precisa fazer no tempo de execução”. Ele diz que a teoria das leis de escala de tempo de inferência pode se tornar ainda mais crítica porque: “Não é como se eu fosse treinar um modelo e depois ser feito.
Esta pesquisa foi apoiada, em parte, pelo MIT-IBM Watson AI Lab e por uma bolsa de pesquisa Sloan.