DeepMind dá um grande salto em direção à interpretação de LLMs com autocodificadores esparsos


Assine nossos boletins informativos diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


Os modelos de grandes linguagens (LLMs) fizeram um progresso notável nos últimos anos. Mas entender como eles funcionam continua sendo um desafio e os cientistas em laboratórios de inteligência synthetic estão tentando espie dentro da caixa preta.

Uma abordagem promissora é o autocodificador esparso (SAE), uma arquitetura de aprendizado profundo que divide as ativações complexas de uma rede neural em componentes menores e compreensíveis que podem ser associados a conceitos legíveis por humanos.

Em um novo artigo, pesquisadores do Google DeepMind apresentam JumpReLU SAEuma nova arquitetura que melhora o desempenho e a interpretabilidade de SAEs para LLMs. O JumpReLU torna mais fácil identificar e rastrear recursos individuais em ativações de LLM, o que pode ser um passo em direção à compreensão de como os LLMs aprendem e raciocinam.

O desafio de interpretar LLMs

O bloco de construção basic de uma rede neural são neurônios individuais, pequenas funções matemáticas que processam e transformam dados. Durante o treinamento, os neurônios são ajustados para se tornarem ativos quando encontram padrões específicos nos dados.

No entanto, neurônios individuais não correspondem necessariamente a conceitos específicos. Um único neurônio pode ativar milhares de conceitos diferentes, e um único conceito pode ativar uma ampla gama de neurônios na rede. Isso torna muito difícil entender o que cada neurônio representa e como ele contribui para o comportamento geral do modelo.

Esse problema é especialmente pronunciado em LLMs, que têm bilhões de parâmetros e são treinados em conjuntos de dados massivos. Como resultado, os padrões de ativação de neurônios em LLMs são extremamente complexos e difíceis de interpretar.

Autocodificadores esparsos

Autoencoders são redes neurais que aprendem a codificar um tipo de entrada em uma representação intermediária e, então, decodificam-na de volta à sua forma authentic. Autoencoders vêm em diferentes sabores e são usados ​​para diferentes aplicações, incluindo compressão, redução de ruído de imagem e transferência de estilo.

Autoencoders esparsos (SAE) usam o conceito de autoencoder com uma ligeira modificação. Durante a fase de codificação, o SAE é forçado a ativar apenas um pequeno número de neurônios na representação intermediária.

Esse mecanismo permite que SAEs comprimam um grande número de ativações em um pequeno número de neurônios intermediários. Durante o treinamento, o SAE recebe ativações de camadas dentro do LLM alvo como entrada.

O SAE tenta codificar essas ativações densas por meio de uma camada de recursos esparsos. Então, ele tenta decodificar os recursos esparsos aprendidos e reconstruir as ativações originais. O objetivo é minimizar a diferença entre as ativações originais e as ativações reconstruídas, usando o menor número possível de recursos intermediários.

O desafio dos SAEs é encontrar o equilíbrio certo entre a escassez e a fidelidade da reconstrução. Se o SAE for muito escasso, ele não será capaz de capturar todas as informações importantes nas ativações. Por outro lado, se o SAE não for escasso o suficiente, será tão difícil de interpretar quanto as ativações originais.

JumpReLU SAE

Os SAEs usam uma “função de ativação” para impor a escassez em sua camada intermediária. A arquitetura SAE authentic usa a função de unidade linear retificada (ReLU), que zera todos os recursos cujo valor de ativação está abaixo de um certo limite (geralmente zero). O problema com o ReLU é que ele pode prejudicar a escassez ao preservar recursos irrelevantes que têm valores muito pequenos.

O JumpReLU SAE da DeepMind visa abordar as limitações das técnicas SAE anteriores fazendo uma pequena alteração na função de ativação. Em vez de usar um valor limite world, o JumpReLU pode determinar valores limites separados para cada neurônio no vetor de características esparsas.

Essa seleção dinâmica de recursos torna o treinamento do JumpReLU SAE um pouco mais complicado, mas permite que ele encontre um melhor equilíbrio entre escassez e fidelidade de reconstrução.

DeepMind dá um grande salto em direção à interpretação de LLMs com autocodificadores esparsos
JumpReLU vs outras funções de ativação (fonte: arXiv)

Os pesquisadores avaliaram o JumpReLU SAE no DeepMind Gemma 2 9B LLM. Eles compararam o desempenho do JumpReLU SAE com duas outras arquiteturas SAE de última geração, a própria DeepMind SAE fechado e OpenAI’s TopK SAE. Eles treinaram os SAEs no fluxo residual, na saída de atenção e nas saídas de camadas densas de diferentes camadas do modelo.

Os resultados mostram que, em diferentes níveis de dispersão, a fidelidade de construção do JumpReLU SAE é superior ao Gated SAE e pelo menos tão boa quanto o TopK SAE. O JumpReLU SAE também foi muito eficaz em minimizar “recursos mortos” que nunca são ativados. Ele também minimiza recursos que são muito ativos e falham em fornecer um sinal sobre conceitos específicos que o LLM aprendeu.

Em seus experimentos, os pesquisadores descobriram que os recursos do JumpReLU SAE eram tão interpretáveis ​​quanto outras arquiteturas de última geração, o que é essential para entender o funcionamento interno dos LLMs.

Além disso, o JumpReLU SAE foi muito eficiente para treinar, tornando-o prático para aplicação em grandes modelos de linguagem.

Compreendendo e orientando o comportamento do LLM

Os SAEs podem fornecer uma maneira mais precisa e eficiente de decompor ativações de LLM e ajudar pesquisadores a identificar e entender os recursos que os LLMs usam para processar e gerar linguagem. Isso pode abrir a porta para o desenvolvimento de técnicas para direcionar o comportamento de LLM em direções desejadas e mitigar algumas de suas deficiências, como viés e toxicidade.

Por exemplo, um estudo recente pela Anthropic descobriu que os SAEs foram treinados nas ativações de Claude Soneto poderia encontrar recursos que ativam em texto e imagens relacionadas à Golden Gate Bridge e atrações turísticas populares. Esse tipo de visibilidade em conceitos pode permitir que cientistas desenvolvam técnicas que impeçam o modelo de gerar conteúdo prejudicial, como criar código malicioso, mesmo quando os usuários conseguem contornar salvaguardas imediatas através de fugas de presos.

SAEs também podem dar um controle mais granular sobre as respostas do modelo. Por exemplo, alterando as ativações esparsas e decodificando-as de volta para o modelo, os usuários podem controlar aspectos da saída, como tornar as respostas mais engraçadas, mais fáceis de ler ou mais técnicas. Estudar as ativações de LLMs se tornou um campo vibrante de pesquisa e ainda há muito a ser aprendido.


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *