Identificando interações em escala para LLMs – The Berkeley Synthetic Intelligence Analysis Weblog




Identificando interações em escala para LLMs – The Berkeley Synthetic Intelligence Analysis Weblog

Compreender o comportamento de sistemas complexos de aprendizado de máquina, particularmente grandes modelos de linguagem (LLMs), é um desafio crítico na inteligência synthetic moderna. A pesquisa sobre interpretabilidade visa tornar o processo de tomada de decisão mais transparente para os construtores de modelos e para os humanos impactados, um passo em direção a uma IA mais segura e confiável. Para obter uma compreensão abrangente, podemos analisar esses sistemas através de diferentes lentes: atribuição de recursosque isola os recursos de entrada específicos que impulsionam uma previsão (Lundberg e Lee, 2017; Ribeiro et al., 2022); atribuição de dadosque vincula comportamentos de modelo a exemplos de treinamento influentes (Koh e Liang, 2017; Ilyas et al., 2022); e interpretabilidade mecanicistaque disseca as funções dos componentes internos (Conmy et al., 2023; Sharkey et al., 2025).

Entre essas perspectivas, o mesmo obstáculo basic persiste: complexidade em escala. O comportamento do modelo raramente é o resultado de componentes isolados; em vez disso, emerge de dependências e padrões complexos. Para alcançar um desempenho de última geração, os modelos sintetizam relacionamentos de recursos complexos, encontram padrões compartilhados a partir de diversos exemplos de treinamento e processam informações por meio de componentes internos altamente interconectados.

Portanto, métodos de interpretabilidade fundamentados ou verificados na realidade também devem ser capazes de capturar essas interações influentes. À medida que o número de recursos, pontos de dados de treinamento e componentes do modelo aumentam, o número de interações potenciais cresce exponencialmente, tornando a análise exaustiva computacionalmente inviável. Nesta postagem do weblog, descrevemos as ideias fundamentais por trás ESPEX e ProxySPEXalgoritmos capazes de identificar essas interações críticas em escala.

Atribuição por meio de ablação

No centro da nossa abordagem está o conceito de ablaçãomedindo a influência observando o que muda quando um componente é removido.

  • Atribuição de recursos: Mascaramos ou removemos segmentos específicos do immediate de entrada e medimos a mudança resultante nas previsões.
  • Atribuição de dados: Treinamos modelos em diferentes subconjuntos do conjunto de treinamento, avaliando como a saída do modelo em um ponto de teste muda na ausência de dados de treinamento específicos.
  • Atribuição de componentes do modelo (interpretabilidade mecanística): Intervimos no avanço do modelo removendo a influência de componentes internos específicos, determinando quais estruturas internas são responsáveis ​​pela previsão do modelo.

Em cada caso, o objetivo é o mesmo: isolar os impulsionadores de uma decisão, perturbando sistematicamente o sistema, na esperança de descobrir interações influentes. Como cada ablação incorre em um custo significativo, seja por meio de dispendiosas chamadas de inferência ou de retreinamento, nosso objetivo é computar atribuições com o menor número de ablações possíveis.


Identificando interações em escala para LLMs – The Berkeley Synthetic Intelligence Analysis Weblog

Mascarando diferentes partes da entrada, medimos a diferença entre as saídas unique e removida.

Estrutura SPEX e ProxySPEX

Para descobrir interações influentes com um número tratável de ablações, desenvolvemos ESPEX (Explicador Espectral). Esta estrutura baseia-se no processamento de sinais e na teoria de codificação para avançar a descoberta de interações em escalas de ordens de magnitude maiores que os métodos anteriores. O SPEX contorna isso explorando uma observação estrutural basic: embora o número whole de interações seja proibitivamente grande, o número de influente interações são realmente muito pequenas.

Formalizamos isso através de duas observações: escassez (relativamente poucas interações realmente impulsionam o resultado) e baixo grau (interações influentes normalmente envolvem apenas um pequeno subconjunto de recursos). Essas propriedades nos permitem reformular o difícil problema de pesquisa em um problema solucionável. recuperação esparsa problema. Baseando-se em ferramentas poderosas de processamento de sinais e teoria de codificação, o SPEX utiliza ablações estrategicamente selecionadas para combinar muitas interações de candidatos. Então, usando algoritmos de decodificação eficientes, desembaraçamos esses sinais combinados para isolar as interações específicas responsáveis ​​pelo comportamento do modelo.


imagem2

Em um algoritmo subsequente, ProxySPEXidentificamos outra propriedade estrutural comum em modelos complexos de aprendizado de máquina: hierarquia. Isto significa que onde uma interação de ordem superior é importante, os seus subconjuntos de ordem inferior provavelmente também serão importantes. Esta observação estrutural adicional produz uma melhoria dramática no custo computacional: corresponde ao desempenho do SPEX com cerca de 10x menos ablações. Coletivamente, essas estruturas permitem a descoberta eficiente de interações, desbloqueando novos aplicativos em atribuição de recursos, dados e componentes de modelo.

Atribuição de recursos

As técnicas de atribuição de recursos atribuem pontuações de importância aos recursos de entrada com base em sua influência na saída do modelo. Por exemplo, se um LLM fosse utilizado para fazer um diagnóstico médico, esta abordagem poderia identificar exactamente quais os sintomas que levaram o modelo à sua conclusão. Embora atribuir importância a características individuais possa ser valioso, o verdadeiro poder dos modelos sofisticados reside na sua capacidade de capturar relações complexas entre características. A figura abaixo ilustra exemplos dessas interações influentes: desde uma dupla mudança negativa de sentimento (esquerda) até a síntese necessária de múltiplos documentos em uma tarefa RAG (direita).


imagem3

A figura abaixo ilustra o desempenho de atribuição de recursos do SPEX em uma tarefa de análise de sentimento. Avaliamos o desempenho usando fidelidade: uma medida de quão precisamente as atribuições recuperadas podem prever o resultado do modelo em ablações de teste invisíveis. Descobrimos que o SPEX corresponde à alta fidelidade das técnicas de interação existentes (Religion-Shap, Religion-Banzhaf) em entradas curtas, mas mantém esse desempenho de forma única à medida que o contexto é dimensionado para milhares de recursos. Em contraste, embora as abordagens marginais (LIME, Banzhaf) também possam operar nesta escala, apresentam uma fidelidade significativamente menor porque não conseguem capturar as interações complexas que impulsionam o resultado do modelo.


imagem4

O SPEX também foi aplicado a uma versão modificada do problema do carrinho, onde a ambigüidade ethical do problema é removida, tornando “Verdadeiro” a resposta correta e clara. Dada a modificação abaixo, o GPT-4o mini respondeu corretamente apenas 8% das vezes. Quando aplicamos a atribuição de recurso padrão (SHAP), identificamos instâncias individuais da palavra carrinho como os principais fatores que levam à resposta incorreta. No entanto, substituindo carrinho com sinônimos como eléctrico ou bonde teve pouco impacto na previsão do modelo. SPEX revelou uma história muito mais rica, identificando uma sinergia dominante de alta ordem entre as duas instâncias de carrinhobem como as palavras puxando e alavanca, uma descoberta que se alinha com a intuição humana sobre os componentes centrais do dilema. Quando essas quatro palavras foram substituídas por sinônimos, a taxa de falha do modelo caiu para quase zero.


imagem5

Atribuição de dados

A atribuição de dados identifica quais pontos de dados de treinamento são os mais responsáveis ​​pela previsão de um modelo em um novo ponto de teste. Identificar interações influentes entre esses pontos de dados é basic para explicar comportamentos inesperados do modelo. Interações redundantes, como duplicatas semânticas, muitas vezes reforçam conceitos específicos (e possivelmente incorretos), enquanto interações sinérgicas são essenciais para definir limites de decisão que nenhuma amostra poderia formar sozinha. Para demonstrar isso, aplicamos o ProxySPEX a um modelo ResNet treinado em CIFAR-10, identificando os exemplos mais significativos de ambos os tipos de interação para uma variedade de pontos de teste difíceis, conforme mostrado na figura abaixo.


imagem6

Como ilustrado, interações sinérgicas (à esquerda) geralmente envolvem courses semanticamente distintas trabalhando juntas para definir um limite de decisão. Por exemplo, fundamentando a sinergia na percepção humana, o automóvel (canto inferior esquerdo) compartilha características visuais com as imagens de treinamento fornecidas, incluindo o chassi discreto do carro esportivo, o formato quadradão do caminhão amarelo e a faixa horizontal do veículo de entrega vermelho. Por outro lado, interações redundantes (à direita) tendem a capturar duplicatas visuais que reforçam um conceito específico. Por exemplo, o cavalo a previsão (meio à direita) é fortemente influenciada por um conjunto de imagens de cães com silhuetas semelhantes. Esta análise refinada permite o desenvolvimento de novas técnicas de seleção de dados que preservam as sinergias necessárias e, ao mesmo tempo, removem redundâncias com segurança.

Atribuição de Cabeça de Atenção (Interpretabilidade Mecanística)

O objetivo de atribuição de componente de modelo é identificar quais partes internas do modelo, como camadas específicas ou cabeças de atenção, são as mais responsáveis ​​por um determinado comportamento. Também aqui o ProxySPEX revela as interações responsáveis ​​entre as diferentes partes da arquitetura. Compreender essas dependências estruturais é very important para intervenções arquitetônicas, como a poda de cabeças de atenção específica para tarefas. Em um conjunto de dados MMLU (highschool-us-history), demonstramos que uma estratégia de poda baseada em ProxySPEX não apenas supera os métodos concorrentes, mas pode realmente melhorar o desempenho do modelo na tarefa alvo.


imagem7

Nesta tarefa, também analisamos a estrutura de interação ao longo da profundidade do modelo. Observamos que as camadas iniciais funcionam num regime predominantemente linear, onde as cabeças contribuem em grande parte de forma independente para a tarefa alvo. Nas camadas posteriores, o papel das interações entre os chefes de atenção torna-se mais pronunciado, com a maior parte da contribuição vindo das interações entre os chefes na mesma camada.


imagem8

O que vem a seguir?

A estrutura SPEX representa um avanço significativo em termos de interpretabilidade, ampliando a descoberta de interações desde dezenas a milhares de componentes. Demonstramos a versatilidade da estrutura em todo o ciclo de vida do modelo: explorando a atribuição de recursos em entradas de contexto longo, identificando sinergias e redundâncias entre pontos de dados de treinamento e descobrindo interações entre componentes internos do modelo. Seguindo em frente, muitas questões de pesquisa interessantes permanecem em torno unificador essas diferentes perspectivas, fornecendo uma compreensão mais holística de um sistema de aprendizado de máquina. Também é de grande interesse avaliar sistematicamente os métodos de descoberta de interação em relação ao conhecimento científico existente em áreas como genômica e ciência dos materiais, servindo tanto para fundamentar descobertas de modelos quanto para gerar novas hipóteses testáveis.

Convidamos a comunidade de pesquisa a se juntar a nós neste esforço: o código do SPEX e do ProxySPEX está totalmente integrado e disponível no in style repositório SHAP-IQ (hyperlink).

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *