Você não confiaria em alguém que mente para você regularmente, não é? Claro que não. É por isso que devemos agir com cuidado ao usar modelos de linguagem grande (LLMs) ou outros algoritmos de aprendizado de máquina para responder a perguntas para nós. Eles podem mentir (ou ter alucinações, se você quiser dizer bem) sobre tudo e qualquer coisa, sem rima ou razão. Os principais detalhes de uma resposta podem ser completamente falsos ou pode haver pequenas imprecisões espalhadas por uma resposta que de outra forma seria sólida. O problema é que essas falsidades podem ser muito difíceis de detectar. Os LLMs, em explicit, são famosos por fornecer respostas confiantes que parecem corretas, mesmo quando não o são. Se você quiser ter certeza sobre uma resposta, a única coisa segura a fazer é verificar independentemente tudo o que está contido nela. Mas fazer isso anula o principal motivo pelo qual alguém escolheria usar essas ferramentas – conveniência. Num esforço para tornar o aprendizado de máquina mais confiável, os pesquisadores desenvolveram ferramentas que podem fornecer uma explicação detalhada do processo de raciocínio de um modelo, para que um olho treinado possa detectar qualquer coisa que possa ser preocupante. Mas essas explicações detalhadas são muito, muito detalhadas, a ponto de ser quase impossível decifrá-las. Os pesquisadores do MIT reconheceram que, se quisermos confiar nos modelos de aprendizado de máquina, precisaremos de explicações sobre as explicações. Para atingir esse objetivo, eles desenvolveram o que chamam de EXPLINGO, que converte explicações de aprendizado de máquina em narrativas legíveis por humanos. Este sistema usa LLMs, mas limita sua função a transformar explicações SHAP existentes – representações visuais que atribuem valores a recursos que impactam as previsões de um modelo – em texto legível. Esta abordagem minimiza imprecisões, uma vez que o LLM não gera explicações do zero, mas sim as traduz em formatos amigáveis. EXPLINGO funciona em duas partes: NARRADOR e GRADER. O NARRATOR gera descrições em linguagem pure imitando os estilos preferidos do usuário, que são definidos por meio de três a cinco exemplos de explicações fornecidas pelo usuário. Esta personalização permite adaptar-se a diferentes casos de uso e requisitos específicos. Depois que uma narrativa é criada, o GRADER avalia sua qualidade com base em quatro métricas: concisão, precisão, integridade e fluência. GRADER usa a explicação SHAP unique e o texto gerado para avaliar se a narrativa captura efetivamente a explicação. A avaliação também pode ser customizada, priorizando métricas específicas dependendo da importância da precisão ou legibilidade no contexto determinado. Testar o EXPLINGO em vários conjuntos de dados mostrou que o sistema poderia produzir explicações fiáveis e estilisticamente adaptáveis, desde que as narrativas de exemplo fossem cuidadosamente elaboradas. Olhando para o futuro, a equipe pretende melhorar o tratamento da linguagem comparativa pelo EXPLINGO e expandi-la para uma ferramenta interativa, permitindo aos usuários fazer perguntas de acompanhamento sobre as previsões do modelo. Este trabalho adicional capacitaria os usuários a avaliar criticamente e confiar melhor nas previsões de aprendizado de máquina em cenários do mundo actual.EXPLINGO explica as previsões de IA para aumentar a confiança (📷: Jose-Luis Olivares, MIT) Exemplos de entradas e saídas para NARRATOR (📷: A. Zytek et al.) Um teste do GRADER (📷: A. Zytek et al.)