
Os grandes modelos de linguagem (LLMs) podem resolver quebra -cabeças complexos em segundos, mas às vezes lutam por conversas simples. Quando essas ferramentas de IA fazem suposições, ignoram os principais detalhes ou negligenciam fazer perguntas esclarecedoras, o resultado pode corroer a confiança e atrapalhar as interações do mundo actual, onde as nuances são tudo.
Uma das principais razões pelas quais esses modelos se comportam dessa maneira está na maneira como são treinados e avaliados. A maioria dos benchmarks usa instruções isoladas e de volta única com instruções claras. Os métodos de treinamento tendem a otimizar para a próxima resposta do modelo, não sua contribuição para uma troca bem-sucedida e de várias turnos. Mas a interação do mundo actual é dinâmica e colaborativa. Ele depende do contexto, esclarecimento e entendimento compartilhado.
Abordagem centrada no usuário para treinamento
Para abordar isso, estamos explorando maneiras de treinar LLMs com os usuários em mente. Nossa abordagem coloca modelos em ambientes simulados que refletem a natureza de entrada e o mesmo dia de conversas reais. Através da aprendizagem de reforço, esses modelos melhoram através de tentativas e erros, por exemplo, aprendendo quando fazer perguntas e como adaptar o estilo de tom e comunicação a diferentes situações. Essa abordagem centrada no usuário ajuda a preencher a lacuna entre como os LLMs são normalmente treinados e como as pessoas realmente as usam.
Este é o conceito por trás Collabllm (abre na nova guia)destinatário de um ICML (abre na nova guia) Prêmio de papel excelente (abre na nova guia). Essa estrutura de treinamento ajuda os LLMs a melhorar por meio de interações simuladas de várias turnos, conforme ilustrado na Figura 1. O perception central por trás do Collabllm é simples: em uma colaboração construtiva, o valor de uma resposta não está apenas em sua utilidade imediata, mas na maneira como contribui para o sucesso geral da conversa. Uma pergunta esclarecedora pode parecer um atraso, mas muitas vezes leva a melhores resultados. Uma resposta rápida pode parecer útil, mas pode criar confusão ou atrapalhar a interação.

A Collabllm coloca essa abordagem colaborativa em prática com um loop de treinamento baseado em simulação, ilustrado na Figura 2. Em qualquer ponto de uma conversa, o modelo gera várias curvas possíveis possíveis ao se envolver em um diálogo com um usuário simulado.

O sistema usa um método de amostragem para estender as conversas entre sua curva, escolhendo respostas prováveis para cada participante (o agente da IA ou o usuário simulado), além de adicionar alguma aleatoriedade para variar os caminhos de conversação. O objetivo é expor o modelo a uma ampla variedade de cenários de conversação, ajudando -o a aprender estratégias de colaboração mais eficazes.
Azure AI Foundry Labs
Obtenha um vislumbre de possíveis direções futuras para a IA, com essas tecnologias experimentais da Microsoft Analysis.
Para cada conversa simulada, aplicamos as funções de recompensa com reconhecimento de multiturnos (MR), que avaliam como a resposta do modelo na curva influencia toda a trajetória da conversa. Amostramos vários acompanhamentos de conversação do modelo, como declarações, sugestões, perguntas, e usamos a RM para atribuir uma recompensa a cada um com base em quão bem a conversa se saiu em curvas posteriores. Baseamos essas pontuações em métricas automatizadas que refletem fatores -chave como conclusão de metas, eficiência de conversação e envolvimento do usuário.
Para pontuar as conversas amostradas, usamos métricas e métricas específicas de tarefas de uma estrutura LLM-AS-A-JUDGE, que suporta uma avaliação eficiente e escalável. Para métricas como o engajamento, um modelo de juiz classifica cada conversa amostrada em uma escala de 0 a 1.
O MR de cada resposta do modelo foi calculado com a média das pontuações das conversas amostradas, originárias da resposta do modelo. Com base na pontuação, o modelo atualiza seus parâmetros usando algoritmos estabelecidos de aprendizado de reforço, como otimização de política proximal (PPO) ou otimização direta de preferência (DPO).
Testamos o CollAlllm através de uma combinação de avaliações automatizadas e humanas, detalhadas no papel. Um destaque é um estudo de usuário envolvendo 201 participantes em uma tarefa de co-criação de documentos, mostrada na Figura 3. Comparamos o Collabllm a uma linha de base treinada com recompensas de uma volta única e a uma segunda linha de base mais proativa solicitada a fazer perguntas esclarecentes e a tomar outras etapas proativas. A Collabllm superou os dois, produzindo documentos de maior qualidade, melhores classificações de interação e tempos de conclusão de tarefas mais rápidos.

Projeto de colaboração do mundo actual
Grande parte da pesquisa de IA de hoje se concentra em tarefas totalmente automatizadas, modelos trabalhando sem entrada ou interação com os usuários. Mas muitos aplicativos do mundo actual dependem das pessoas no loop: como usuários, colaboradores ou tomadores de decisão. Projetar sistemas de IA que tratam a entrada do usuário não como uma restrição, mas como essencial, leva a sistemas mais precisos, mais úteis e, finalmente, mais confiáveis.
Este trabalho é impulsionado por uma crença central: o futuro da IA depende não apenas da inteligência, mas da capacidade de colaborar efetivamente. E isso significa confrontar as quebras da comunicação nos sistemas atuais.
Vemos o Collabllm como um passo nessa direção, treinando modelos para se envolver em interações significativas de várias turnos, fazer perguntas de esclarecimento e se adaptar ao contexto. Ao fazer isso, podemos criar sistemas projetados para funcionar com Pessoas – não ao seu redor.