
Grandes modelos de linguagem (LLMs) às vezes aprendem lições erradas, de acordo com um estudo do MIT.
Em vez de responder a uma consulta baseada no conhecimento do domínio, um LLM poderia responder aproveitando os padrões gramaticais aprendidos durante o treinamento. Isso pode fazer com que um modelo falhe inesperadamente quando implantado em novas tarefas.
Os pesquisadores descobriram que os modelos podem vincular erroneamente certos padrões de frases a tópicos específicos, de modo que um LLM pode dar uma resposta convincente ao reconhecer frases familiares em vez de compreender a pergunta.
Seus experimentos mostraram que mesmo os LLMs mais poderosos podem cometer esse erro.
Esta deficiência poderia reduzir a fiabilidade dos LLMs que executam tarefas como lidar com consultas de clientes, resumir notas clínicas e gerar relatórios financeiros.
Também pode apresentar riscos de segurança. Um ator nefasto poderia explorar isso para induzir os LLMs a produzir conteúdo prejudicial, mesmo quando os modelos possuem salvaguardas para evitar tais respostas.
Depois de identificar este fenómeno e explorar as suas implicações, os investigadores desenvolveram um procedimento de benchmarking para avaliar a confiança de um modelo nestas correlações incorretas. O procedimento poderia ajudar os desenvolvedores a mitigar o problema antes de implantar LLMs.
“Isso é um subproduto de como treinamos modelos, mas os modelos agora são usados na prática em domínios críticos de segurança muito além das tarefas que criaram esses modos de falha sintática. Se você não estiver familiarizado com o treinamento de modelos como usuário closing, isso provavelmente será inesperado”, diz Marzyeh Ghassemi, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, membro do Instituto de Ciências de Engenharia Médica do MIT e do Laboratório de Sistemas de Informação e Decisão, e autor sênior do estudar.
Ghassemi é acompanhado pelos co-autores principais Chantal Shaib, estudante de pós-graduação na Northeastern College e estudante visitante no MIT; e Vinith Suriyakumar, estudante de pós-graduação do MIT; bem como Levent Sagun, cientista pesquisador da Meta; e Byron Wallace, professor associado interdisciplinar Sy e Laurie Sternberg e reitor associado de pesquisa da Khoury School of Pc Sciences da Northeastern College. UM artigo descrevendo o trabalho será apresentado na Conferência sobre Sistemas de Processamento de Informação Neural.
Preso na sintaxe
Os LLMs são treinados em uma grande quantidade de texto da Web. Durante esse processo de treinamento, o modelo aprende a compreender as relações entre palavras e frases – conhecimento que utiliza posteriormente ao responder a consultas.
Em trabalhos anteriores, os pesquisadores descobriram que os LLMs captam padrões nas lessons gramaticais que frequentemente aparecem juntas nos dados de treinamento. Eles chamam esses padrões de lessons gramaticais de “modelos sintáticos”.
Os LLMs precisam desta compreensão da sintaxe, juntamente com o conhecimento semântico, para responder a questões num domínio específico.
“No domínio das notícias, por exemplo, existe um estilo explicit de escrita. Portanto, o modelo não só aprende a semântica, como também aprende a estrutura subjacente de como as frases devem ser reunidas para seguir um estilo específico para esse domínio”, explica Shaib.
Mas nesta pesquisa, eles determinaram que os LLMs aprendem a associar esses modelos sintáticos a domínios específicos. O modelo pode confiar incorretamente apenas nesta associação aprendida ao responder perguntas, em vez de na compreensão da consulta e do assunto.
Por exemplo, um LLM pode aprender que uma pergunta como “Onde fica Paris?” é estruturado como advérbio/verbo/nome próprio/verbo. Se houver muitos exemplos de construção de frases nos dados de treinamento do modelo, o LLM poderá associar esse modelo sintático a perguntas sobre países.
Portanto, se o modelo receber uma nova pergunta com a mesma estrutura gramatical, mas com palavras sem sentido, como “Rapidamente sente Paris nublada?” poderia responder “França”, mesmo que essa resposta não faça sentido.
“Este é um tipo negligenciado de associação que o modelo aprende para responder às perguntas corretamente. Deveríamos prestar mais atenção não apenas à semântica, mas também à sintaxe dos dados que usamos para treinar nossos modelos”, diz Shaib.
Faltando o significado
Os pesquisadores testaram esse fenômeno projetando experimentos sintéticos nos quais apenas um modelo sintático aparecia nos dados de treinamento do modelo para cada domínio. Eles testaram os modelos substituindo palavras por sinônimos, antônimos ou palavras aleatórias, mas mantiveram a mesma sintaxe subjacente.
Em cada caso, descobriram que os LLMs muitas vezes ainda respondiam com a resposta correta, mesmo quando a pergunta period completamente sem sentido.
Quando reestruturaram a mesma pergunta usando um novo padrão gramatical, os LLMs muitas vezes não conseguiram dar a resposta correta, embora o significado subjacente da pergunta permanecesse o mesmo.
Eles usaram essa abordagem para testar LLMs pré-treinados, como GPT-4 e Llama, e descobriram que esse mesmo comportamento aprendido reduziu significativamente seu desempenho.
Curiosos sobre as implicações mais amplas destas descobertas, os investigadores estudaram se alguém poderia explorar este fenómeno para obter respostas prejudiciais de um LLM que foi deliberadamente treinado para recusar tais pedidos.
Eles descobriram que, ao formular a pergunta usando um modelo sintático que o modelo associa a um conjunto de dados “seguro” (aquele que não contém informações prejudiciais), eles poderiam enganar o modelo, fazendo-o ignorar sua política de recusa e gerar conteúdo prejudicial.
“A partir deste trabalho, fica claro para mim que precisamos de defesas mais robustas para lidar com vulnerabilidades de segurança em LLMs. Neste artigo, identificamos uma nova vulnerabilidade que surge devido à forma como os LLMs aprendem. Portanto, precisamos descobrir novas defesas com base em como os LLMs aprendem a linguagem, em vez de apenas soluções advert hoc para diferentes vulnerabilidades”, diz Suriyakumar.
Embora os pesquisadores não tenham explorado estratégias de mitigação neste trabalho, eles desenvolveram uma técnica de benchmarking automática que poderia ser usada para avaliar a confiança de um LLM nesta correlação incorreta de domínio de sintaxe. Este novo teste pode ajudar os desenvolvedores a resolver proativamente essa deficiência em seus modelos, reduzindo os riscos de segurança e melhorando o desempenho.
No futuro, os pesquisadores querem estudar possíveis estratégias de mitigação, que poderiam envolver o aumento dos dados de treinamento para fornecer uma variedade maior de modelos sintáticos. Eles também estão interessados em explorar esse fenômeno em modelos de raciocínio, tipos especiais de LLMs projetados para lidar com tarefas de múltiplas etapas.
“Acho que este é um ângulo realmente criativo para estudar os modos de falha dos LLMs. Este trabalho destaca a importância do conhecimento linguístico e da análise na pesquisa de segurança do LLM, um aspecto que não tem estado no centro das atenções, mas claramente deveria estar”, diz Jessy Li, professora associada da Universidade do Texas em Austin, que não esteve envolvida neste trabalho.
Este trabalho é financiado, em parte, por uma bolsa Bridgewater AIA Labs, pela Nationwide Science Basis, pela Gordon and Betty Moore Basis, por um Google Analysis Award e pela Schmidt Sciences.