Treinamento LLMS para se auto-detoxificar sua linguagem | MIT Information



Treinamento LLMS para se auto-detoxificar sua linguagem | MIT Information

À medida que amadurecemos desde a infância, nosso vocabulário – assim como as maneiras pelas quais a usamos – cresce, e nossas experiências se tornam mais ricas, permitindo -nos pensar, raciocinar e interagir com outras pessoas com especificidade e intenção. Consequentemente, nossas escolhas de palavras evoluem para se alinhar com nossos valores pessoais, ética, normas culturais e visões. Com o tempo, a maioria de nós desenvolve um “guia” interno que nos permite aprender o contexto por trás da conversa; Também freqüentemente nos direciona para compartilhar informações e sentimentos que são, ou podem ser, prejudiciais ou inadequados. Acontece que os grandes modelos de idiomas (LLMs) – que são treinados em conjuntos de dados públicos extensos e, portanto, geralmente têm vieses e idiomas tóxicos assados ​​- podem obter uma capacidade semelhante para moderar seu próprio idioma.

Um novo método do MIT, o MIT-IBM Watson AI Lab e a IBM Analysis, denominada amostragem autorregressiva autodisciplinada (SASA), permite que os LLMs desintoxiquem suas próprias saídas, sem sacrificar a fluência.

Ao contrário de outros métodos de desintoxicação, esse algoritmo de decodificação aprende um limite entre subespaços tóxicos/não tóxicos dentro da própria representação interna do LLM, sem alterar os parâmetros do modelo, a necessidade de reciclagem ou um modelo de recompensa externa. Então, durante a inferência, o algoritmo avalia o valor de toxicidade da frase parcialmente gerada: tokens (palavras) já gerados e aceitos, juntamente com cada novo token potencial que poderia ser razoavelmente escolhido para a proximidade do limite do classificador. Em seguida, ele seleciona uma opção de palavra que coloca a frase no espaço não tóxico, oferecendo, finalmente, uma maneira rápida e eficiente de gerar linguagem menos tóxica.

“Queríamos descobrir uma maneira de qualquer modelo de idioma existente (isso), durante o processo de geração, a decodificação pode estar sujeita a alguns valores humanos; o exemplo aqui que estamos tomando é a toxicidade”, diz o principal autor do estudo Ching-Yun “Irene” Ko PhD ’24, um ex-estagiário do MIT-IBM Watson Ai e um Centro de Pesquisa em Centro.

Os co-autores de Ko incluem Luca Daniel, professora do Departamento de Engenharia Elétrica e Ciência da Computação do MIT (EECS), membro do MIT-IBM Watson AI Lab e consultor de pós-graduação de Ko; e vários membros do MIT-IBM Watson AI Lab e/ou IBM Analysis-Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury e Tejaswini Pedapati. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizagem.

Encontrando os “corrimãos”

Os recursos de treinamento por trás do LLMS quase sempre incluem conteúdo coletado de espaços públicos, como a Web e outros conjuntos de dados prontamente disponíveis. Como tal, as palavras de maldição e a linguagem bullying/desagradável é um componente, embora algumas delas estejam no contexto de obras literárias. Em seguida, segue -se que os LLMs podem produzir de maneira inata – ou ser enganado a gerar – conteúdo perigoso e/ou tendencioso, que geralmente contém palavras desagradáveis ​​ou linguagem odiosa, mesmo de avisos inócuos. Além disso, verificou -se que eles podem aprender e ampliar a linguagem que não é preferida ou até prejudicial para muitas aplicações e tarefas a jusante – levando à necessidade de estratégias de mitigação ou correção.

Existem muitas maneiras de obter uma geração robusta de linguagem que é justa e alinhada por valor. Alguns métodos usam a reciclagem do LLM com um conjunto de dados higienizado, que é caro, leva tempo e pode alterar o desempenho do LLM; Outros empregam modelos de recompensa externa de decodificação, como amostragem ou pesquisa de feixe, que levam mais tempo para ser executado e exigem mais memória. No caso da SASA, KO, Daniel e a equipe de pesquisa da IBM desenvolveram um método que aproveita a natureza autoregressiva do LLMS e, usando uma estratégia baseada em decodificação durante a inferência do LLM, dirige gradualmente a geração-um token em um tempo-longe de resultados insaviciados ou não inseridos e em direção à melhor linguagem.

O grupo de pesquisa alcançou isso construindo um classificador linear que opera no subespaço instruído da incorporação do LLM. Quando os LLMs são treinados, palavras com significados semelhantes são colocadas em conjunto no espaço vetorial e mais longe de palavras diferentes; Os pesquisadores levantaram a hipótese de que a incorporação de um LLM também capturaria informações contextuais, que poderiam ser usadas para desintoxicação. Os pesquisadores usaram conjuntos de dados que continham conjuntos de um immediate (primeira metade de uma frase ou pensamento), uma resposta (a conclusão dessa frase) e anotação atribuída ao ser humano, como tóxico ou não tóxico, preferido ou não preferido, com rótulos contínuos de 0-1, denotando a crescente toxicidade. Um classificador ultimate de Bayes foi então aplicado para aprender e desenhar figurativamente uma linha entre os subespaços binários nas incorporações de sentença, representadas por valores positivos (espaço não tóxico) e números negativos (espaço tóxico).

O sistema SASA funciona então refletindo novamente as probabilidades de amostragem do token potencial mais novo com base no valor e na distância da frase gerada para o classificador, com o objetivo de permanecer próximo à distribuição de amostragem authentic.

Para ilustrar, se um usuário estiver gerando um potencial token #12 em uma frase, o LLM analisará seu vocabulário completo para uma palavra razoável, com base nas 11 palavras que vieram antes dela e, usando o High-Okay, High-P, ele filtrará e produzirá cerca de 10 tokens para selecionar. A SASA avalia cada um desses tokens na frase parcialmente concluída por sua proximidade com o classificador (ou seja, o valor dos tokens 1-11, mais cada token em potencial 12). Os tokens que produzem frases no espaço positivo são incentivados, enquanto os do espaço negativo são penalizados. Além disso, quanto mais longe do classificador, mais forte será o impacto.

“O objetivo é alterar o processo de amostragem autoregressiva, refletindo novamente a probabilidade de bons tokens. Se o próximo token provavelmente será tóxico, dado o contexto, reduziremos a probabilidade de amostragem para que esses propensos sejam tokens tóxicos”, diz Ko. Os pesquisadores escolheram fazê -lo dessa maneira “porque as coisas que dizemos, seja benigna ou não, estão sujeitas ao contexto”.

Tampando toxicidade para correspondência de valor

Os pesquisadores avaliaram seu método em relação a várias intervenções basais com três LLMs de tamanho crescente; Todos eram transformadores e baseados em autoregressivos: GPT2-Giant, LLAMA2-7B e LLAMA 3.1-8B-INSTRUCT, com 762 milhões, 7 bilhões e 8 bilhões de parâmetros, respectivamente. Para cada immediate, o LLM foi encarregado de concluir a frase/frase 25 vezes, e o Perspectiveapi os marcou de 0 a 1, com qualquer coisa acima de 0,5 sendo tóxico. A equipe analisou duas métricas: a pontuação média de toxicidade máxima nas 25 gerações para todas as instruções e a taxa tóxica, que foi a probabilidade de produzir pelo menos uma frase tóxica em 25 gerações. A fluência reduzida (e, portanto, aumentou a perplexidade) também foi analisada. A SASA foi testada para concluir os conjuntos de dados RealToxicity (RPT), BOLD e ATTAQ, que continham solicitações naturais de frases em inglês.

Os pesquisadores aumentaram a complexidade de seus ensaios para desintoxicação pela SASA, começando com instruções não tóxicas do conjunto de dados RPT, procurando conclusões prejudiciais das sentenças. Em seguida, eles o aumentaram para instruções mais desafiadoras do RPT, com maior probabilidade de produzir resultados sobre os resultados e também aplicados à SASA ao modelo ajustado por instruções para avaliar se sua técnica poderia reduzir ainda mais os OPUTs indesejados. Eles também usaram os benchmarks em negrito e attaq para examinar a aplicabilidade geral da SASA em desintoxicação. Com o conjunto de dados em negrito, os pesquisadores procuraram ainda o viés de gênero nas gerações de idiomas e tentaram obter uma taxa tóxica equilibrada entre os sexos. Por fim, a equipe analisou o tempo de execução, o uso da memória e como a SASA poderia ser combinada com a filtragem de palavras para obter uma geração de idiomas saudável e/ou útil.

“Se pensarmos em como os seres humanos pensam e reagem no mundo, vemos coisas ruins, por isso não se trata de permitir que o modelo de idioma veja apenas as coisas boas. Trata -se de entender o espectro completo – bom e ruim”, diz Ko, “e escolher sustentar nossos valores quando falamos e agimos”.

No geral, a SASA alcançou reduções significativas de geração de idiomas tóxicos, realizando em pé de igualdade com RAD, uma técnica de modelo de recompensa externa de última geração. No entanto, observou -se universalmente que a desintoxicação mais forte acompanhou uma diminuição da fluência. Antes da intervenção, os LLMs produziram respostas mais tóxicas para instruções rotuladas por mulheres do que homens; No entanto, a SASA também foi capaz de reduzir significativamente as respostas prejudiciais, tornando -as mais equalizadas. Da mesma forma, a filtragem de palavras no topo da SASA diminuiu acentuadamente os níveis de toxicidade, mas também impediu a capacidade do LLM de responder coerentemente.

Um ótimo aspecto deste trabalho é que é um problema de otimização restrito e bem definido, diz KO, o que significa que o equilíbrio entre a geração de linguagem aberta que soa pure e a necessidade de reduzir a linguagem indesejada pode ser alcançada e sintonizada.

Além disso, diz Ko, a SASA poderia funcionar bem para vários atributos no futuro: “Para os seres humanos, temos vários valores humanos. Não queremos dizer coisas tóxicas, mas também queremos ser sinceros, úteis e leais … se você ajustar um modelo para todos esses valores, exigiria mais recursos computacionais e, é claro, o treinamento adicional” ”” Por conta da maneira leve da SASA, ela pode ser facilmente aplicada nessas circunstâncias: “Se você quiser trabalhar com vários valores, está simplesmente verificando a posição da geração em vários subspaces. Ele adiciona apenas uma sobrecarga marginal em termos de computação e parâmetros”, diz Ko, levando a uma linguagem mais positiva, justa e indicada.

Este trabalho foi apoiado, em parte, pelo MIT-IBM Watson AI Lab e pela Nationwide Science Basis.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *