Facilitando a verificação das respostas de um modelo de IA | Notícias do MIT



Facilitando a verificação das respostas de um modelo de IA | Notícias do MIT

Apesar de suas capacidades impressionantes, grandes modelos de linguagem estão longe de ser perfeitos. Esses modelos de inteligência synthetic às vezes “alucinam” ao gerar informações incorretas ou sem suporte em resposta a uma consulta.

Devido a este problema de alucinação, as respostas de um LLM são frequentemente verificadas por verificadores de factos humanos, especialmente se um modelo for implantado num ambiente de alto risco, como cuidados de saúde ou finanças. No entanto, os processos de validação normalmente exigem que as pessoas leiam longos documentos citados pelo modelo, uma tarefa tão onerosa e propensa a erros que pode impedir que alguns usuários implementem modelos generativos de IA em primeiro lugar.

Para ajudar os validadores humanos, os pesquisadores do MIT criaram um sistema fácil de usar que permite às pessoas verificar as respostas de um LLM muito mais rapidamente. Com esta ferramenta, chamada SymGenum LLM gera respostas com citações que apontam diretamente para o native em um documento de origem, como uma determinada célula em um banco de dados.

Os usuários passam o mouse sobre as partes destacadas de sua resposta de texto para ver os dados que o modelo usou para gerar aquela palavra ou frase específica. Ao mesmo tempo, as partes não destacadas mostram aos usuários quais frases precisam de atenção adicional para verificação e verificação.

“Damos às pessoas a capacidade de se concentrarem seletivamente em partes do texto com as quais precisam se preocupar mais. No last, o SymGen pode dar às pessoas maior confiança nas respostas de um modelo porque elas podem facilmente observar mais de perto para garantir que as informações sejam verificadas”, diz Shannon Shen, estudante de graduação em engenharia elétrica e ciência da computação e co-autor principal de um artigo sobre SymGen.

Através de um estudo com usuários, Shen e seus colaboradores descobriram que o SymGen acelerou o tempo de verificação em cerca de 20%, em comparação com procedimentos manuais. Ao tornar mais rápido e fácil para os humanos validarem os resultados do modelo, o SymGen poderia ajudar as pessoas a identificar erros em LLMs implantados em uma variedade de situações do mundo actual, desde a geração de notas clínicas até o resumo de relatórios do mercado financeiro.

Shen é acompanhado no artigo pelo co-autor principal e colega estudante de pós-graduação do EECS, Lucas Torroba Hennigen; o estudante de pós-graduação do EECS, Aniruddha “Ani” Nrusimha; Bernhard Gapp, presidente da Good Information Initiative; e os autores seniores David Sontag, professor do EECS, membro da Clínica Jameel do MIT e líder do Grupo Clínico de Aprendizado de Máquina do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL); e Yoon Kim, professor assistente do EECS e membro do CSAIL. A pesquisa foi recentemente apresentada na Conferência sobre Modelagem de Linguagem.

Referências simbólicas

Para auxiliar na validação, muitos LLMs são projetados para gerar citações, que apontam para documentos externos, juntamente com suas respostas baseadas no idioma, para que os usuários possam verificá-los. No entanto, esses sistemas de verificação são geralmente concebidos como uma reflexão tardia, sem considerar o esforço necessário para as pessoas examinarem inúmeras citações, diz Shen.

“A IA generativa tem como objetivo reduzir o tempo do usuário para concluir uma tarefa. Se você precisar passar horas lendo todos esses documentos para verificar se o modelo está dizendo algo razoável, então será menos útil ter as gerações em prática”, diz Shen.

Os pesquisadores abordaram o problema de validação a partir da perspectiva dos humanos que farão o trabalho.

Um usuário SymGen primeiro fornece ao LLM dados que ele pode referenciar em sua resposta, como uma tabela que contém estatísticas de um jogo de basquete. Então, em vez de pedir imediatamente ao modelo para concluir uma tarefa, como gerar um resumo do jogo a partir desses dados, os pesquisadores realizam uma etapa intermediária. Eles solicitam que o modelo gere sua resposta de forma simbólica.

Com esse immediate, toda vez que o modelo quiser citar palavras em sua resposta, ele deverá escrever a célula específica da tabela de dados que contém as informações às quais está se referindo. Por exemplo, se o modelo quiser citar a frase “Portland Trailblazers” em sua resposta, ele substituirá esse texto pelo nome da célula na tabela de dados que contém essas palavras.

“Por termos essa etapa intermediária que tem o texto em formato simbólico, conseguimos ter referências realmente refinadas. Podemos dizer que, para cada trecho de texto na saída, é exatamente onde ele corresponde nos dados”, diz Torroba Hennigen.

O SymGen então resolve cada referência usando uma ferramenta baseada em regras que copia o texto correspondente da tabela de dados para a resposta do modelo.

“Dessa forma, sabemos que se trata de uma cópia literal, portanto sabemos que não haverá erros na parte do texto que corresponde à variável de dados actual”, acrescenta Shen.

Simplificando a validação

O modelo pode criar respostas simbólicas devido à forma como é treinado. Grandes modelos de linguagem são alimentados com grandes quantidades de dados da Web e alguns dados são registrados em “formato de espaço reservado”, onde os códigos substituem os valores reais.

Quando SymGen solicita ao modelo que gere uma resposta simbólica, ele usa uma estrutura semelhante.

“Projetamos o immediate de uma maneira específica para aproveitar os recursos do LLM”, acrescenta Shen.

Durante um estudo com usuários, a maioria dos participantes disse que o SymGen facilitou a verificação do texto gerado pelo LLM. Eles poderiam validar as respostas do modelo cerca de 20% mais rápido do que se usassem métodos padrão.

No entanto, o SymGen é limitado pela qualidade dos dados de origem. O LLM pode citar uma variável incorreta e um verificador humano pode não saber disso.

Além disso, o usuário deve ter os dados de origem em um formato estruturado, como uma tabela, para alimentar o SymGen. No momento, o sistema funciona apenas com dados tabulares.

Seguindo em frente, os pesquisadores estão aprimorando o SymGen para que ele possa lidar com texto arbitrário e outras formas de dados. Com essa capacidade, poderia ajudar a validar partes de resumos de documentos jurídicos gerados por IA, por exemplo. Eles também planejam testar o SymGen com médicos para estudar como ele poderia identificar erros em resumos clínicos gerados por IA.

Este trabalho é financiado, em parte, pela Liberty Mutual e pela Quest for Intelligence Initiative do MIT.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *