7 truques de engenharia imediatos para mitigar alucinações em LLMs


7 truques de engenharia imediatos para mitigar alucinações em LLMs

7 truques de engenharia imediatos para mitigar alucinações em LLMs

Introdução

Grandes modelos de linguagem (LLMs) exibem habilidades excepcionais para raciocinar, resumir e gerar texto de forma criativa. Ainda assim, eles permanecem suscetíveis ao problema comum de alucinaçõesque consiste em gerar informações aparentemente confiáveis, mas falsas, não verificáveis ​​ou, às vezes, até sem sentido.

Os LLMs geram texto com base em intrincados padrões estatísticos e probabilísticos, em vez de depender principalmente da verificação de verdades fundamentadas. Em alguns campos críticos, esta questão pode causar grandes impactos negativos. Robusto engenharia imediataque envolve a habilidade de elaborar instruções bem estruturadas com instruções, restrições e contexto, pode ser uma estratégia eficaz para mitigar alucinações.

As sete técnicas listadas neste artigo, com exemplos de modelos de immediate, ilustram como tanto os LLMs autônomos quanto os sistemas de geração aumentada de recuperação (RAG) podem melhorar seu desempenho e se tornar mais robustos contra alucinações, simplesmente implementando-os nas consultas do usuário.

1. Incentive a abstenção e respostas “Não sei”

Os LLMs normalmente se concentram em fornecer respostas que pareçam confiantes, mesmo quando incertas – verifique este artigo compreender em detalhes como os LLMs geram texto – gerando como resultado fatos às vezes fabricados. Permitir explicitamente a abstenção pode orientar o LLM no sentido de mitigar um sentimento de falsa confiança. Vejamos um exemplo de immediate para fazer isso:

“Você é um assistente de verificação de fatos. Se não tiver certeza de uma resposta, responda: ‘Não tenho informações suficientes para responder a isso.’ Se estiver confiante, dê sua resposta com uma breve justificativa.”

O immediate acima seria seguido por uma pergunta actual ou verificação de fatos.

Um exemplo de resposta esperada seria:

“Não tenho informações suficientes para responder a isso.”

ou

“Com base nas evidências disponíveis, a resposta é… (raciocínio).”

Esta é uma boa primeira linha de defesa, mas nada impede um LLM de desconsiderar essas orientações com alguma regularidade. Vamos ver o que mais podemos fazer.

2. Raciocínio estruturado em cadeia de pensamento

Pedir a um modelo de linguagem que aplique o raciocínio passo a passo incentiva a consistência interna e mitiga lacunas lógicas que às vezes podem causar alucinações de modelo. O Raciocínio de Cadeia de Pensamento (CoT) a estratégia consiste basicamente em emular um algoritmo – como uma lista de etapas ou estágios que o modelo deve abordar sequencialmente para resolver a tarefa geral em questão. Mais uma vez, presume-se que o modelo de exemplo abaixo seja acompanhado por um immediate específico do problema.

“Por favor, pense neste problema passo a passo:
1) Que informações são fornecidas?
2) Que suposições são necessárias?
3) Que conclusão se segue logicamente?”

Um exemplo de resposta esperada:

“1) Fatos conhecidos: A, B. 2) Suposições: C. 3) Portanto, conclusão: D.”

3. Aterramento com “De acordo com”

Este truque de engenharia rápido foi concebido para vincular a resposta procurada a fontes nomeadas. O efeito é desencorajar alucinações baseadas em invenções e estimular o raciocínio baseado em fatos. Esta estratégia pode ser naturalmente combinada com o número 1 discutido anteriormente.

“De acordo com o relatório da Organização Mundial da Saúde (OMS) de 2023, explique os principais impulsionadores da resistência antimicrobiana. Se o relatório não fornecer detalhes suficientes, diga ‘Não sei’.”

Um exemplo de resposta esperada:

“De acordo com a OMS (2023), os principais factores incluem o uso excessivo de antibióticos, saneamento deficiente e vendas não regulamentadas de medicamentos. Mais detalhes não estão disponíveis.”

4. RAG com instrução e contexto explícitos

pano concede ao modelo acesso a uma base de conhecimento ou base de documentos contendo dados de texto verificados ou atuais. Mesmo assim, o risco de alucinações persiste em sistemas RAG, a menos que um aviso bem elaborado instrua o sistema a confiar exclusivamente no texto recuperado.

*(Suponha que dois documentos recuperados: X e Y)*
“Usando apenas as informações em X e Y, resuma as principais causas do desmatamento na bacia amazônica e projetos de infraestrutura relacionados. Se os documentos não cobrirem algum ponto, diga ‘dados insuficientes’.”

Um exemplo de resposta esperada:

“De acordo com o Doc X e o Doc Y, as principais causas incluem a expansão agrícola e a exploração madeireira ilegal. Para projectos de infra-estruturas, dados insuficientes.”

5. Restrições de saída e escopo limitante

Controlar rigorosamente o formato dos resultados gerados e a sua extensão contribui para reduzir as alucinações sob a forma de declarações especulativas ou tangenciais, como reivindicações de causas não fundamentadas, cadeias de raciocínio excessivamente elaboradas ou estatísticas inventadas, evitando assim resultados que possam desviar-se dos materiais de origem.

Restringir os “graus de liberdade” no espaço de resposta aumenta as possibilities de retornar informações verificáveis, em vez de preencher as lacunas “não importa o que aconteça”.

“Em no máximo 100 palavras, resuma o papel das mitocôndrias nas células humanas. Se não tiver certeza, responda ‘Não sei’.”

Um exemplo de resposta esperada:

“As mitocôndrias geram ATP através da fosforilação oxidativa, regulam os níveis de cálcio e influenciam a apoptose. Faltam-me dados suficientes sobre funções adicionais.”

6. Loops de correção baseados em RAG: cadeia de verificação

Esta abordagem consiste em combinar a recuperação com a autoverificação, permitindo ao modelo questionar e verificar novamente as suas próprias afirmações contra fontes externas de evidências, principalmente em sistemas RAG. Visa principalmente alucinações devido ao “excesso de confiança”, tentando mitigá-las.

“Etapa 1: Gerar uma resposta inicial à pergunta: ‘Quando caiu o Muro de Berlim?’
Passo 2: Recupere e leia passagens relevantes de um banco de dados histórico confiável.
Etapa 3: evaluate as evidências recuperadas com sua resposta.
Passo 4: Se existirem discrepâncias, corrija a resposta e cite a fonte recuperada.”

Um exemplo de resposta esperada:

“Resposta inicial: 1989.
Evidências recuperadas: Arquivos históricos confirmam a inauguração do Muro de Berlim em 9 de novembro de 1989.
Resposta ultimate verificada: O Muro de Berlim caiu em 9 de novembro de 1989, quando Berlim Oriental abriu passagens de fronteira.”

7. Solicitações, isenções de responsabilidade e proteções de segurança específicas do domínio

Em domínios de aplicação de alto risco, como a medicina, é essencial especificar limites de domínio restritos e exigir citações de fontes, para reduzir o risco de alegações especulativas que poderiam, na prática, levar a consequências negativas. Aqui está um exemplo de como fazer isso:

“Você é um assistente de informações médicas certificado. Usando estudos revisados ​​por pares ou diretrizes oficiais publicadas antes de 2024, explique o tratamento de primeira linha para asma persistente moderada em adultos. Se você não puder citar tal diretriz, responda: ‘Não posso fornecer uma recomendação; consulte um profissional médico.'”

Um exemplo de resposta esperada:

“De acordo com a diretriz da Iniciativa World para Asma (GINA) 2023, a terapia de primeira linha para asma persistente moderada é um corticosteroide inalado em dose baixa com um agonista β₂ de ação prolongada, como budesonida/formoterol. Para ajustes específicos do paciente, consulte um médico.”

Concluindo

Abaixo está um resumo das 7 estratégias que discutimos.

RecursoDescrição
Incentive a abstenção e respostas “não sei”

Permita que o modelo diga “não sei” e evite especulações. **Não RAG**.

Raciocínio estruturado em cadeia de pensamento

Raciocínio passo a passo para melhorar a consistência nas respostas. **Não RAG**.

Aterramento com “De acordo com”

Use referências explícitas para fundamentar as respostas. **Não RAG**.

RAG com instrução explícita e contexto

Instrua explicitamente o modelo a confiar nas evidências recuperadas. **RAGO**.

Restrições de saída e escopo limitante

Restrinja o formato e a extensão das respostas para minimizar a elaboração especulativa e tornar as respostas mais verificáveis. **Não RAG**.

Loops de correção baseados em RAG: cadeia de verificação

Diga ao modelo para verificar seus próprios resultados em relação ao conhecimento recuperado. **RAGO**.

Solicitações, isenções de responsabilidade e proteções de segurança específicas do domínio

Restrinja solicitações com regras de domínio, requisitos de domínio ou isenções de responsabilidade em cenários de alto risco. **Não RAG**.

Este artigo listou sete truques úteis de engenharia imediata, baseados em modelos versáteis para vários cenários, que, quando alimentados em sistemas LLMs ou RAG, podem ajudar a reduzir alucinações: um problema comum e às vezes persistente nesses modelos, de outra forma todo-poderosos.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *