Já lhe fizeram uma pergunta cuja resposta você só sabia parte? Para dar uma resposta mais informada, sua melhor jogada seria ligar para um amigo com mais conhecimento sobre o assunto.
Esse processo colaborativo também pode ajudar modelos de linguagem grandes (LLMs) a melhorar sua precisão. Ainda assim, tem sido difícil ensinar LLMs a reconhecer quando devem colaborar com outro modelo em uma resposta. Em vez de usar fórmulas complexas ou grandes quantidades de dados rotulados para soletrar onde os modelos devem trabalhar juntos, pesquisadores do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL) do MIT imaginaram uma abordagem mais orgânica.
Seu novo algoritmo, chamado “Co-LLM”, pode parear um LLM de base de propósito geral com um modelo mais especializado e ajudá-los a trabalhar juntos. Conforme o primeiro elabora uma resposta, o Co-LLM revisa cada palavra (ou token) dentro de sua resposta para ver onde pode recorrer a uma resposta mais precisa do modelo especialista. Esse processo leva a respostas mais precisas para coisas como prompts médicos e problemas de matemática e raciocínio. Como o modelo especialista não é necessário em cada iteração, isso também leva a uma geração de resposta mais eficiente.
Para decidir quando um modelo base precisa da ajuda de um modelo especialista, a estrutura usa aprendizado de máquina para treinar uma “variável de troca”, ou uma ferramenta que pode indicar a competência de cada palavra dentro das respostas dos dois LLMs. A troca é como um gerente de projeto, encontrando áreas onde deve chamar um especialista. Se você pedisse ao Co-LLM para nomear alguns exemplos de espécies de ursos extintas, por exemplo, dois modelos redigiriam respostas juntos. O LLM de propósito geral começa a montar uma resposta, com a variável de troca intervindo nas partes onde pode encaixar um token melhor do modelo especialista, como adicionar o ano em que a espécie de urso foi extinta.
“Com o Co-LLM, estamos essencialmente treinando um LLM de uso geral para ‘ligar’ para um modelo especialista quando necessário”, diz Shannon Shen, uma estudante de doutorado do MIT em engenharia elétrica e ciência da computação e afiliada do CSAIL, que é autora principal de um novo artigo sobre a abordagem. “Usamos dados específicos de domínio para ensinar o modelo base sobre a experience de sua contraparte em áreas como tarefas biomédicas e questões de matemática e raciocínio. Esse processo encontra automaticamente as partes dos dados que são difíceis para o modelo base gerar e, então, instrui o modelo base a alternar para o LLM especialista, que foi pré-treinado em dados de um campo semelhante. O modelo de propósito geral fornece a geração de ‘andaimes’ e, quando ele chama o LLM especializado, ele solicita que o especialista gere os tokens desejados. Nossas descobertas indicam que os LLMs aprendem padrões de colaboração organicamente, assemelhando-se a como os humanos reconhecem quando chamar um especialista para preencher as lacunas.”
Uma combinação de flexibilidade e factualidade
Think about pedir a um LLM de propósito geral para nomear os ingredientes de um medicamento de prescrição específico. Ele pode responder incorretamente, necessitando da experience de um modelo especializado.
Para demonstrar a flexibilidade do Co-LLM, os pesquisadores usaram dados como o BioASQ conjunto médico para acoplar um LLM básico com LLMs especializados em diferentes domínios, como o Modelo Meditronque é pré-treinado em dados médicos não rotulados. Isso permitiu que o algoritmo ajudasse a responder a perguntas que um especialista biomédico normalmente receberia, como nomear os mecanismos que causam uma doença específica.
Por exemplo, se você pedisse a um simples LLM para nomear os ingredientes de um medicamento específico, ele poderia responder incorretamente. Com a experience adicional de um modelo especializado em dados biomédicos, você obteria uma resposta mais precisa. O Co-LLM também alerta os usuários sobre onde verificar as respostas.
Outro exemplo do aumento de desempenho do Co-LLM: quando encarregado de resolver um problema matemático como “a3 · a2 se a=5”, o modelo de uso geral calculou incorretamente a resposta como 125. À medida que o Co-LLM treinava o modelo para colaborar mais com um grande LLM matemático chamado Lemajuntos eles determinaram que a solução correta period 3.125.
O Co-LLM deu respostas mais precisas do que LLMs simples ajustados e modelos especializados não ajustados trabalhando de forma independente. O Co-LLM pode orientar dois modelos que foram treinados de forma diferente para trabalharem juntos, enquanto outras abordagens de colaboração LLM eficazes, como “Ajuste de proxy,” precisam que todos os seus modelos de componentes sejam treinados de forma related. Além disso, essa linha de base requer que cada modelo seja usado simultaneamente para produzir a resposta, enquanto o algoritmo do MIT simplesmente ativa seu modelo especialista para tokens específicos, levando a uma geração mais eficiente.
Quando perguntar ao especialista
O algoritmo dos pesquisadores do MIT destaca que imitar o trabalho em equipe humano mais de perto pode aumentar a precisão na colaboração multi-LLM. Para elevar ainda mais sua precisão factual, a equipe pode recorrer à autocorreção humana: eles estão considerando uma abordagem de adiamento mais robusta que pode retroceder quando o modelo especialista não der uma resposta correta. Essa atualização permitiria que o Co-LLM corrigisse o curso para que o algoritmo ainda pudesse dar uma resposta satisfatória.
A equipe também gostaria de atualizar o modelo especialista (por meio do treinamento apenas do modelo base) quando novas informações estiverem disponíveis, mantendo as respostas o mais atualizadas possível. Isso permitiria que o Co-LLM combinasse as informações mais atualizadas com forte poder de raciocínio. Eventualmente, o modelo poderia auxiliar com documentos corporativos, usando as informações mais recentes que ele tem para atualizá-los adequadamente. O Co-LLM também poderia treinar modelos pequenos e privados para trabalhar com um LLM mais poderoso para melhorar documentos que devem permanecer no servidor.
“O Co-LLM apresenta uma abordagem interessante para aprender a escolher entre dois modelos para melhorar a eficiência e o desempenho”, diz Colin Raffel, professor associado da Universidade de Toronto e diretor associado de pesquisa do Vector Institute, que não estava envolvido na pesquisa. “Como as decisões de roteamento são feitas no nível do token, o Co-LLM fornece uma maneira granular de adiar etapas de geração difíceis para um modelo mais poderoso. A combinação exclusiva de roteamento no nível do modelo-token também fornece uma grande flexibilidade que métodos semelhantes não têm. O Co-LLM contribui para uma importante linha de trabalho que visa desenvolver ecossistemas de modelos especializados para superar sistemas de IA monolíticos caros.”
Shen escreveu o artigo com outros quatro afiliados do CSAIL: o aluno de doutorado Hunter Lang ’17, MEng ’18; o ex-pós-doutorado e pesquisador de IA/ML da Apple Bailin Wang; o professor assistente de engenharia elétrica e ciência da computação do MIT Yoon Kim e o professor e membro da Jameel Clinic David Sontag PhD ’10, ambos parte do MIT-IBM Watson AI Lab. A pesquisa deles foi apoiada, em parte, pela Nationwide Science Basis, The Nationwide Protection Science and Engineering Graduate (NDSEG) Fellowship, MIT-IBM Watson AI Lab e Amazon. O trabalho deles foi apresentado na Reunião Anual da Affiliation for Computational Linguistics.