Esta resenha é uma rave ou uma panela? Esta notícia é sobre negócios ou tecnologia? Esta conversa on -line de chatbot está se inclinando para dar conselhos financeiros? Este web site de informações médicas on -line está dando informações erradas?
Esses tipos de conversas automatizadas, se eles envolvem a busca de um filme ou revisão de restaurantes ou obter informações sobre sua conta bancária ou registros de saúde, estão se tornando cada vez mais predominantes. Mais do que nunca, essas avaliações estão sendo feitas por algoritmos altamente sofisticados, conhecidos como classificadores de texto, e não por seres humanos. Mas como podemos dizer o quão preciso são essas classificações?
Agora, uma equipe do MIT Laboratory for Info and Determination Programs (LIDS) apresentou uma abordagem inovadora para não apenas medir o quão bem esses classificadores estão fazendo seu trabalho, mas depois dão um passo adiante e mostrar como torná -los mais precisos.
O novo software program de avaliação e remediação foi desenvolvido por Kalyan Veeramachaneni, um principal cientista de pesquisa da TIDS, seus alunos Lei Xu e Sarah Algera e dois outros. O pacote de software program está sendo disponibilizado gratuitamente para obtain por quem quiser usá -lo.
Um método padrão para testar esses sistemas de classificação é criar o que são conhecidos como exemplos sintéticos – frases que se assemelham às que já foram classificadas. Por exemplo, os pesquisadores podem receber uma frase que já foi marcada por um programa de classificador como uma revisão e uma revisão e veja se alterar uma palavra ou algumas palavras, mantendo o mesmo significado, poderia enganar o classificador para considerá -lo uma panela. Ou uma frase que foi determinada como desinformação pode ser classificada como precisas como precisas. Essa capacidade de enganar os classificadores faz esses exemplos adversários.
As pessoas tentaram várias maneiras de encontrar as vulnerabilidades nesses classificadores, diz Veeramachaneni. Mas os métodos existentes para encontrar essas vulnerabilidades têm dificuldade com essa tarefa e perdem muitos exemplos que devem pegar, diz ele.
Cada vez mais, as empresas estão tentando usar essas ferramentas de avaliação em tempo actual, monitorando a saída de chatbots usados para vários fins para tentar garantir que não estejam apresentando respostas impróprias. Por exemplo, um banco pode usar um chatbot para responder a consultas de rotina do cliente, como a verificação dos saldos da conta ou a solicitação de um cartão de crédito, mas deseja garantir que suas respostas nunca possam ser interpretadas como conselhos financeiros, o que poderia expor a empresa à responsabilidade. “Antes de mostrar a resposta do chatbot ao usuário ultimate, eles querem usar o classificador de texto para detectar se está dando conselhos financeiros ou não”, diz Veeramachaneni. Mas é importante testar esse classificador para ver o quão confiáveis são suas avaliações.
“Esses chatbots, ou mecanismos de resumo ou outros enfeites estão sendo configurados em geral”, diz ele, para lidar com clientes externos e também dentro de uma organização, por exemplo, fornecendo informações sobre questões de RH. É importante colocar esses classificadores de texto no loop para detectar as coisas que eles não devem dizer e filtrá -los antes que a saída seja transmitida ao usuário.
É aí que entra o uso de exemplos adversários – aquelas frases que já foram classificadas, mas depois produzem uma resposta diferente quando são ligeiramente modificadas, mantendo o mesmo significado. Como as pessoas podem confirmar que o significado é o mesmo? Usando outro grande modelo de linguagem (LLM) que interpreta e compara significados. Portanto, se o LLM diz que as duas frases significam a mesma coisa, mas o classificador as rotula de maneira diferente: “Essa é uma frase que é adversária – pode enganar o classificador”, diz Veeramachaneni. E quando os pesquisadores examinaram essas sentenças adversárias, “descobrimos que na maioria das vezes isso period apenas uma mudança de palavra”, embora as pessoas que usam LLMs para gerar essas frases alternativas geralmente não percebessem isso.
Investigação mais aprofundada, usando LLMs para analisar muitos milhares de exemplos, mostrou que certas palavras específicas tiveram uma influência enorme na mudança das classificações e, portanto, o teste da precisão de um classificador poderia se concentrar nesse pequeno subconjunto de palavras que parecem fazer a maior diferença. Eles descobriram que um décimo de 1 % de todas as 30.000 palavras no vocabulário do sistema poderia representar quase metade de todos esses reversões de classificação, em algumas aplicações específicas.
Lei Xu PhD ’23, recém -formado em tampas que realizaram grande parte da análise como parte de seu trabalho de tese, “usou muitas técnicas de estimativa interessantes para descobrir quais são as palavras mais poderosas que podem alterar a classificação geral, que podem enganar o classificador”, diz Veeramacaneni. O objetivo é possibilitar pesquisas com muito mais alvo, em vez de vasculhar todas as substituições possíveis de palavras, tornando a tarefa computacional de gerar exemplos adversários muito mais gerenciáveis. “Ele está usando grandes modelos de linguagem, curiosamente, como uma maneira de entender o poder de uma única palavra”.
Em seguida, usando também o LLMS, ele procura outras palavras que estão intimamente relacionadas a essas palavras poderosas e assim por diante, permitindo uma classificação geral de palavras de acordo com sua influência nos resultados. Depois que essas sentenças adversárias foram encontradas, elas podem ser usadas, por sua vez, para treinar o classificador para levar em consideração, aumentando a robustez do classificador contra esses erros.
Tornar os classificadores mais precisos pode não parecer um grande negócio se for apenas uma questão de classificar os artigos de notícias em categorias ou decidir se as resenhas de algo de filmes a restaurantes são positivas ou negativas. Mas, cada vez mais, os classificadores estão sendo usados em ambientes em que os resultados realmente importam, seja impedindo a liberação inadvertida de informações médicas, financeiras ou de segurança sensíveis ou ajudando a orientar pesquisas importantes, como propriedades de compostos químicos ou dobragem de proteínas para aplicações biomédicas, ou em identificação e bloqueio de discursos de ódio ou informações de inundação conhecida.
Como resultado dessa pesquisa, a equipe introduziu uma nova métrica, que eles chamam de P, que fornece uma medida de quão robusto é um determinado classificador contra ataques de uma única palavra. E devido à importância de tais classificações errôneas, a equipe de pesquisa disponibilizou seus produtos como acesso aberto para qualquer um usar. O pacote consiste em dois componentes: o ataque SP, que gera frases adversárias para testar classificadores em qualquer aplicativo específico, e a defesa do SP, que visa melhorar a robustez do classificador, gerando e usando frases adversárias para treinar o modelo.
Em alguns testes, onde os métodos concorrentes de teste de classificação de testes permitiram uma taxa de sucesso de 66 % por ataques adversários, o sistema desta equipe cortou que o sucesso de ataque com a taxa de sucesso quase ao meio, para 33,7 %. Em outras aplicações, a melhoria foi de uma diferença de 2 %, mas mesmo isso pode ser muito importante, diz Veeramachaneni, uma vez que esses sistemas estão sendo usados para tantos bilhões de interações que até uma pequena porcentagem pode afetar milhões de transações.
Os resultados da equipe foram publicados em 7 de julho na revista Sistemas especializados Em um artigo de Xu, Veeramachaneni e Alendheimish de tampas, juntamente com Laure Berti-Equille em IRD em Marselha, França e Alfredo Cuesta-Infante na Universidad Rey Juan Carlos, na Espanha.