
A maioria dos idiomas usa a posição das palavras e a estrutura das frases para extrair significado. Por exemplo, “O gato sentou na caixa” não é o mesmo que “A caixa estava no gato”. Ao longo de um texto longo, como um documento financeiro ou um romance, a sintaxe destas palavras provavelmente evolui.
Da mesma forma, uma pessoa pode estar rastreando variáveis em um trecho de código ou seguindo instruções que possuem ações condicionais. Estes são exemplos de mudanças de estado e raciocínio sequencial nos quais esperamos que os sistemas de inteligência synthetic de última geração se destaquem; no entanto, o mecanismo de atenção de ponta existente nos transformadores – a arquitetura usada principalmente em grandes modelos de linguagem (LLMs) para determinar a importância das palavras – tem limitações teóricas e empíricas quando se trata de tais capacidades.
Um mecanismo de atenção permite que um LLM analise partes anteriores de uma consulta ou documento e, com base em seu treinamento, decide quais detalhes e palavras são mais importantes; no entanto, este mecanismo por si só não compreende a ordem das palavras. Ele “vê” todas as palavras de entrada, também conhecidas como tokens, ao mesmo tempo e as processa na ordem em que são apresentadas, por isso os pesquisadores desenvolveram técnicas para codificar informações de posição. Isso é basic para domínios altamente estruturados, como o idioma. Mas o método de codificação de posição predominante, denominado codificação de posição rotativa (RoPE), leva em consideração apenas a distância relativa entre os tokens em uma sequência e é independente dos dados de entrada. Isso significa que, por exemplo, palavras separadas por quatro posições, como “gato” e “caixa” no exemplo acima, receberão todas a mesma rotação matemática fixa específica para aquela distância relativa.
Agora, uma pesquisa liderada pelo MIT e pelo MIT-IBM Watson AI Lab produziu uma técnica de codificação conhecida como “PaTH Consideration”, que torna as informações posicionais adaptativas e conscientes do contexto, em vez de estáticas, como acontece com o RoPE.
“Os transformadores permitem uma modelagem precisa e escalonável de muitos domínios, mas eles têm essas limitações em relação ao rastreamento de estado, uma classe de fenômenos que se acredita estar subjacente a capacidades importantes que desejamos em nossos sistemas de IA. Portanto, a questão importante é: como podemos manter a escalabilidade e a eficiência dos transformadores, ao mesmo tempo que habilitamos o rastreamento de estado?” diz o autor sênior do artigo, Yoon Kim, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação (EECS), membro do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL) e pesquisador do MIT-IBM Watson AI Lab.
Um novo artigo sobre este trabalho foi apresentado no início deste mês na Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS). Os coautores de Kim incluem o autor principal Songlin Yang, estudante de pós-graduação do EECS e ex-estagiário do programa de verão do MIT-IBM Watson AI Lab; Kaiyue Wen, da Universidade de Stanford; Liliang Ren da Microsoft; e Yikang Shen, Shawn Tan, Mayank Mishra e Rameswar Panda da IBM Analysis e do MIT-IBM Watson AI Lab.
Caminho para a compreensão
Em vez de atribuir a cada palavra uma rotação fixa com base na distância relativa entre tokens, como faz o RoPE, o PaTH Consideration é flexível, tratando as palavras intermediárias como um caminho composto de pequenas transformações dependentes de dados. Cada transformação, baseada em uma operação matemática chamada reflexão de Householder, atua como um pequeno espelho que se ajusta dependendo do conteúdo de cada token por onde passa. Cada etapa de uma sequência pode influenciar como o modelo interpreta as informações posteriormente. O efeito cumulativo permite que o sistema modele como o significado muda ao longo do caminho entre as palavras, e não apenas a distância entre elas. Essa abordagem permite que os transformadores acompanhem como as entidades e os relacionamentos mudam ao longo do tempo, dando-lhes uma sensação de “memória posicional”. Pense nisso como percorrer um caminho enquanto vivencia o ambiente e como ele afeta você. Além disso, a equipe também desenvolveu um algoritmo eficiente de {hardware} para calcular com mais eficiência as pontuações de atenção entre cada par de tokens, de modo que a transformação matemática cumulativa do PaTH Consideration seja compactada e dividida em cálculos menores, para que seja compatível com o processamento rápido em GPUs.
Os pesquisadores do MIT-IBM exploraram então o desempenho do PaTH Consideration em tarefas sintéticas e do mundo actual, incluindo raciocínio, benchmarks de contexto longo e treinamento LLM completo para ver se melhorava a capacidade de um modelo de rastrear informações ao longo do tempo. A equipe testou sua capacidade de seguir o comando de “gravação” mais recente, apesar de muitas etapas perturbadoras e testes de recuperação de várias etapas, tarefas que são difíceis para métodos de codificação posicional padrão como RoPE. Os pesquisadores também treinaram LLMs de médio porte e os compararam com outros métodos. O PaTH Consideration melhorou a perplexidade e superou outros métodos em benchmarks de raciocínio nos quais não foi treinado. Eles também avaliaram a recuperação, o raciocínio e a estabilidade com entradas de dezenas de milhares de tokens. PaTH Consideration provou consistentemente ser capaz de reconhecer o conteúdo.
“Descobrimos que tanto em tarefas de diagnóstico projetadas para testar as limitações dos transformadores quanto em tarefas de modelagem de linguagem do mundo actual, nossa nova abordagem foi capaz de superar os mecanismos de atenção existentes, mantendo sua eficiência”, diz Kim. Além disso, “eu ficaria entusiasmado em ver se esses tipos de codificações de posição dependentes de dados, como PATH, melhoram o desempenho de transformadores em domínios estruturados como biologia, na (análise) de proteínas ou DNA”.
Pensando maior e com mais eficiência
Os pesquisadores então investigaram como o mecanismo PaTH Consideration funcionaria se imitasse de forma mais semelhante a cognição humana, onde ignoramos informações antigas ou menos relevantes ao tomar decisões. Para fazer isso, eles combinaram PaTH Consideration com outro esquema de codificação de posição conhecido como Forgetting Transformer (FoX), que permite que os modelos “esqueçam” seletivamente. O sistema PaTH-FoX resultante adiciona uma maneira de reduzir o peso das informações de maneira dependente dos dados, alcançando resultados sólidos em raciocínio, compreensão de contexto longo e benchmarks de modelagem de linguagem. Desta forma, PaTH Consideration amplia o poder expressivo das arquiteturas de transformadores.
Kim diz que pesquisas como essa fazem parte de um esforço mais amplo para desenvolver a “próxima grande novidade” em IA. Ele explica que um dos principais impulsionadores das revoluções de aprendizagem profunda e de IA generativa foi a criação de “blocos de construção de uso geral que podem ser aplicados a domínios amplos”, como “camadas de convolução, camadas RNN (rede neural recorrente)” e, mais recentemente, transformadores. Olhando para o futuro, Kim observa que considerações como precisão, expressividade, flexibilidade e escalabilidade de {hardware} foram e serão essenciais. Como ele diz, “o principal empreendimento da pesquisa em arquitetura moderna é tentar criar esses novos primitivos que mantenham ou melhorem a expressividade, ao mesmo tempo que sejam escaláveis”.
Este trabalho foi apoiado, em parte, pelo MIT-IBM Watson AI Lab e pelo programa AI2050 da Schmidt Sciences.