Não é necessária reciclagem: o novo modelo de IA de Sakana muda a forma como as máquinas aprendem


Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


Pesquisadores em Sakana IAum laboratório de pesquisa de IA com foco em algoritmos inspirados na natureza, desenvolveu um modelo de linguagem autoadaptável que pode aprender novas tarefas sem a necessidade de ajustes finos. Chamado Transformador² (Transformer-squared), o modelo usa truques matemáticos para alinhar seus pesos com as solicitações do usuário durante a inferência.

Esta é a mais recente de uma série de técnicas que visam melhorar as habilidades dos grandes modelos de linguagem (LLMs) no momento da inferência, tornando-os cada vez mais úteis para aplicações cotidianas em diferentes domínios.

Ajustando pesos dinamicamente

Normalmente, configurar LLMs para novas tarefas exige um custo processo de ajuste finodurante o qual o modelo é exposto a novos exemplos e seus parâmetros são ajustados. Uma abordagem mais econômica é “adaptação de baixo escalão”(LoRA), no qual um pequeno subconjunto de parâmetros do modelo relevantes para a tarefa alvo é identificado e modificado durante o ajuste fino.

Após o treinamento e o ajuste fino, os parâmetros do modelo permanecem congelados, e a única maneira de redirecioná-lo para novas tarefas é por meio de técnicas como aprendizado de poucos e muitos disparos.

Em contraste com o ajuste fino clássico, o Transformer-squared usa uma abordagem em duas etapas para ajustar dinamicamente seus parâmetros durante a inferência. Primeiro, analisa o pedido recebido para compreender a tarefa e os seus requisitos e, em seguida, aplica ajustes específicos da tarefa aos pesos do modelo para otimizar o seu desempenho para esse pedido específico.

“Ao ajustar seletivamente os componentes críticos dos pesos do modelo, nossa estrutura permite que os LLMs se adaptem dinamicamente a novas tarefas em tempo actual”, escrevem os pesquisadores em um comunicado. postagem no weblog publicado no web site da empresa.

Como funciona o Transformer-quadrado de Sakana

A principal habilidade do Transformer-squared é ajustar dinamicamente componentes críticos de seus pesos na inferência.

Para fazer isso, primeiro é necessário identificar os principais componentes que podem ser ajustados durante a inferência. Transformer-quadrado faz isso através decomposição de valor singular (SVD), um truque de álgebra linear que divide uma matriz em três outras matrizes que revelam sua estrutura interna e geometria. SVD é frequentemente usado para compactar dados ou simplificar modelos de aprendizado de máquina.

Quando aplicado à matriz de pesos do LLM, o SVD obtém um conjunto de componentes que representam aproximadamente as diferentes habilidades do modelo, como matemática, compreensão de linguagem ou codificação. Em seus experimentos, os pesquisadores descobriram que esses componentes poderiam ser ajustados para modificar as habilidades do modelo em tarefas específicas.

Para aproveitar sistematicamente essas descobertas, eles desenvolveram um processo denominado ajuste fino de valor singular (SVF). No momento do treinamento, o SVF aprende um conjunto de vetores dos componentes SVD do modelo. Esses vetores, chamados vetores z, são representações compactas de habilidades individuais e podem ser usados ​​como botões para amplificar ou diminuir a capacidade do modelo em tarefas específicas.

No momento da inferência, o Transformer-squared usa um mecanismo de duas passagens para adaptar o LLM para tarefas invisíveis. Primeiro, examina o estímulo para determinar as competências necessárias para resolver o problema (os investigadores propõem três técnicas diferentes para determinar as competências necessárias). Na segunda etapa, o Transformer-squared configura os vetores z correspondentes à solicitação e executa o immediate através do modelo e dos pesos atualizados. Isso permite que o modelo forneça uma resposta personalizada para cada immediate.

Não é necessária reciclagem: o novo modelo de IA de Sakana muda a forma como as máquinas aprendem
Treinamento e inferência ao quadrado do transformador (fonte: arXiv)

Transformador quadrado em ação

Os pesquisadores aplicaram o Transformer-quadrado para Lhama-3 e Mistral LLMs e os comparou ao LoRA em várias tarefas, incluindo matemática, codificação, raciocínio e resposta visible a perguntas. O transformador quadrado supera o LoRA em todos os benchmarks, embora tenha menos parâmetros. Também é notável que, diferentemente do Transformer-quadrado, os modelos LoRA não conseguem adaptar seus pesos no momento da inferência, o que os torna menos flexíveis.

Outra descoberta intrigante é que o conhecimento extraído de um modelo pode ser transferido para outro. Por exemplo, os vetores z obtidos dos modelos Llama poderiam ser aplicados aos modelos Mistral. Os resultados não foram equivalentes à criação de vetores z do zero para o modelo de destino, e a transferibilidade foi possível porque os dois modelos tinham arquiteturas semelhantes. Mas sugere a possibilidade de aprender vetores z generalizados que podem ser aplicados a uma ampla gama de modelos.

Transformador quadrado (SVF na tabela) vs modelos básicos e LoRA (fonte: arXiv)

“O caminho a seguir reside na construção de modelos que se adaptem e colaborem dinamicamente com outros sistemas, combinando capacidades especializadas para resolver problemas complexos e de vários domínios”, escrevem os investigadores. “Sistemas autoadaptáveis ​​como o Transformer² preenchem a lacuna entre a IA estática e a inteligência viva, abrindo caminho para ferramentas de IA eficientes, personalizadas e totalmente integradas que impulsionam o progresso nos setores e em nossas vidas diárias.”

Sakana AI lançou o código para treinar os componentes do Transformer-squared em GitHub.

Truques de tempo de inferência

À medida que as empresas exploram diferentes aplicações LLM, no ano passado assistimos a uma mudança notável no desenvolvimento de técnicas de tempo de inferência. Transformer-squared é uma das várias abordagens que permitem aos desenvolvedores personalizar LLMs para novas tarefas no momento da inferência, sem a necessidade de treiná-los novamente ou ajustá-los.

Titãsuma arquitetura desenvolvida por pesquisadores do Google, aborda o problema de um ângulo diferente, dando aos modelos de linguagem a capacidade de aprender e memorizar novas informações no momento da inferência. Outras técnicas concentram-se em permitir que LLMs de fronteira aproveitem seus janelas de contexto cada vez mais longas aprender novas tarefas sem reciclagem.

Com as empresas detendo os dados e o conhecimento específicos para suas aplicações, os avanços nas técnicas de personalização do tempo de inferência tornarão os LLMs muito mais úteis.


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *