CollabllM: Ensinar LLMs para colaborar com os usuários


CollabllM: Ensinar LLMs para colaborar com os usuários

Os grandes modelos de linguagem (LLMs) podem resolver quebra -cabeças complexos em segundos, mas às vezes lutam por conversas simples. Quando essas ferramentas de IA fazem suposições, ignoram os principais detalhes ou negligenciam fazer perguntas esclarecedoras, o resultado pode corroer a confiança e atrapalhar as interações do mundo actual, onde as nuances são tudo.

Uma das principais razões pelas quais esses modelos se comportam dessa maneira está na maneira como são treinados e avaliados. A maioria dos benchmarks usa instruções isoladas e de volta única com instruções claras. Os métodos de treinamento tendem a otimizar para a próxima resposta do modelo, não sua contribuição para uma troca bem-sucedida e de várias turnos. Mas a interação do mundo actual é dinâmica e colaborativa. Ele depende do contexto, esclarecimento e entendimento compartilhado.

Abordagem centrada no usuário para treinamento

Para abordar isso, estamos explorando maneiras de treinar LLMs com os usuários em mente. Nossa abordagem coloca modelos em ambientes simulados que refletem a natureza de entrada e o mesmo dia de conversas reais. Através da aprendizagem de reforço, esses modelos melhoram através de tentativas e erros, por exemplo, aprendendo quando fazer perguntas e como adaptar o estilo de tom e comunicação a diferentes situações. Essa abordagem centrada no usuário ajuda a preencher a lacuna entre como os LLMs são normalmente treinados e como as pessoas realmente as usam.

Este é o conceito por trás Collabllm (abre na nova guia)destinatário de um ICML (abre na nova guia) Prêmio de papel excelente (abre na nova guia). Essa estrutura de treinamento ajuda os LLMs a melhorar por meio de interações simuladas de várias turnos, conforme ilustrado na Figura 1. O perception central por trás do Collabllm é simples: em uma colaboração construtiva, o valor de uma resposta não está apenas em sua utilidade imediata, mas na maneira como contribui para o sucesso geral da conversa. Uma pergunta esclarecedora pode parecer um atraso, mas muitas vezes leva a melhores resultados. Uma resposta rápida pode parecer útil, mas pode criar confusão ou atrapalhar a interação.

A Figura 1 compara duas estratégias de treinamento para modelos de idiomas grandes: um método não colaborativo padrão e nosso método colaborativo proposto (Collabllm). À esquerda, o método padrão usa um conjunto de dados de preferência/recompensa com avaliações de volta única, resultando em um modelo que causa interações ineficazes. O usuário fornece feedback, mas o modelo gera várias respostas detalhadas e insatisfatórias, exigindo muitas voltas e festas. À direita, o Collabllm incorpora simulação colaborativa durante o treinamento, usando interações com várias turnos e aprendizado de reforço. Após o treinamento, o modelo faz perguntas esclarecedoras (por exemplo, preferências de tom), recebe entrada focada do usuário e gera rapidamente respostas personalizadas e de alto impacto.
Figura 1. Diagrama comparando duas abordagens de treinamento para LLMS. (a) O método padrão não possui colaboração com agente de usuário e usa recompensas de volta única, levando a uma conversa ineficiente. (b) Por outro lado, o Collabllm simula interações de agentes do usuário de várias turnos durante o treinamento, permitindo aprender estratégias eficazes de colaboração e produzir diálogos mais eficientes.

A Collabllm coloca essa abordagem colaborativa em prática com um loop de treinamento baseado em simulação, ilustrado na Figura 2. Em qualquer ponto de uma conversa, o modelo gera várias curvas possíveis possíveis ao se envolver em um diálogo com um usuário simulado.

A Figura 2 ilustra o procedimento geral de treinamento do Collabllm. Para uma determinada entrada de conversação, o LLM e um simulador de usuário são usados para amostrar continuações de conversas. As conversas amostradas são pontuadas usando um modelo de recompensa que utiliza várias recompensas com reconhecimento multiturno, que, por sua vez, são usadas para atualizar parâmetros do LLM.
Figura 2: Processo de treinamento baseado em simulação usado no Collabllm

O sistema usa um método de amostragem para estender as conversas entre sua curva, escolhendo respostas prováveis para cada participante (o agente da IA ou o usuário simulado), além de adicionar alguma aleatoriedade para variar os caminhos de conversação. O objetivo é expor o modelo a uma ampla variedade de cenários de conversação, ajudando -o a aprender estratégias de colaboração mais eficazes.

Azure AI Foundry Labs

Obtenha um vislumbre de possíveis direções futuras para a IA, com essas tecnologias experimentais da Microsoft Analysis.


Para cada conversa simulada, aplicamos as funções de recompensa com reconhecimento de multiturnos (MR), que avaliam como a resposta do modelo na curva influencia toda a trajetória da conversa. Amostramos vários acompanhamentos de conversação do modelo, como declarações, sugestões, perguntas, e usamos a RM para atribuir uma recompensa a cada um com base em quão bem a conversa se saiu em curvas posteriores. Baseamos essas pontuações em métricas automatizadas que refletem fatores -chave como conclusão de metas, eficiência de conversação e envolvimento do usuário.

Para pontuar as conversas amostradas, usamos métricas e métricas específicas de tarefas de uma estrutura LLM-AS-A-JUDGE, que suporta uma avaliação eficiente e escalável. Para métricas como o engajamento, um modelo de juiz classifica cada conversa amostrada em uma escala de 0 a 1.

O MR de cada resposta do modelo foi calculado com a média das pontuações das conversas amostradas, originárias da resposta do modelo. Com base na pontuação, o modelo atualiza seus parâmetros usando algoritmos estabelecidos de aprendizado de reforço, como otimização de política proximal (PPO) ou otimização direta de preferência (DPO).

Testamos o CollAlllm através de uma combinação de avaliações automatizadas e humanas, detalhadas no papel. Um destaque é um estudo de usuário envolvendo 201 participantes em uma tarefa de co-criação de documentos, mostrada na Figura 3. Comparamos o Collabllm a uma linha de base treinada com recompensas de uma volta única e a uma segunda linha de base mais proativa solicitada a fazer perguntas esclarecentes e a tomar outras etapas proativas. A Collabllm superou os dois, produzindo documentos de maior qualidade, melhores classificações de interação e tempos de conclusão de tarefas mais rápidos.

A Figura 3 mostra os principais resultados de nosso estudo de usuário em uma tarefa de co-criação de documentos, comparando uma linha de base, uma linha de base proativa e Collabllm. A Collabllm superou as duas linhas de base. Em relação à melhor linha de base, o CollAlllm produz melhorou a classificação da qualidade do documento (+0,12), a classificação de interação (+0,14) e uma redução do tempo médio gasto pelo usuário (-129 segundos).
Figura 3: Resultados do estudo do usuário em uma tarefa de co-criação de documentos comparando o Collabllm com uma linha de base treinada com recompensas de volta única.

Projeto de colaboração do mundo actual

Grande parte da pesquisa de IA de hoje se concentra em tarefas totalmente automatizadas, modelos trabalhando sem entrada ou interação com os usuários. Mas muitos aplicativos do mundo actual dependem das pessoas no loop: como usuários, colaboradores ou tomadores de decisão. Projetar sistemas de IA que tratam a entrada do usuário não como uma restrição, mas como essencial, leva a sistemas mais precisos, mais úteis e, finalmente, mais confiáveis.

Este trabalho é impulsionado por uma crença central: o futuro da IA depende não apenas da inteligência, mas da capacidade de colaborar efetivamente. E isso significa confrontar as quebras da comunicação nos sistemas atuais.

Vemos o Collabllm como um passo nessa direção, treinando modelos para se envolver em interações significativas de várias turnos, fazer perguntas de esclarecimento e se adaptar ao contexto. Ao fazer isso, podemos criar sistemas projetados para funcionar com Pessoas – não ao seu redor.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *