Como os cérebros humanos, os grandes modelos de idiomas são raciocinados sobre diversos dados de maneira geral | MIT Information



Como os cérebros humanos, os grandes modelos de idiomas são raciocinados sobre diversos dados de maneira geral | MIT Information

Embora os primeiros modelos de idiomas só possam processar o texto, os modelos de grandes idiomas contemporâneos agora executam tarefas altamente diversas em diferentes tipos de dados. Por exemplo, os LLMs podem entender muitos idiomas, gerar código do computador, resolver problemas de matemática ou responder a perguntas sobre imagens e áudio.

Os pesquisadores do MIT investigaram o funcionamento interno do LLMS para entender melhor como processam dados tão variados e encontraram evidências de que compartilham algumas semelhanças com o cérebro humano.

Os neurocientistas acreditam que o cérebro humano tem um “cubo semântico” no lobo temporal anterior que integra informações semânticas de várias modalidades, como dados visuais e entradas táteis. Este hub semântico está conectado a “raios” específicos da modalidade que direcionam as informações para o hub. Os pesquisadores do MIT descobriram que os LLMs usam um mecanismo semelhante processando abstrivelmente dados de diversas modalidades de maneira central e generalizada. Por exemplo, um modelo que possui inglês como idioma dominante dependeria do inglês como um meio central para processar entradas em japonês ou razão sobre aritmética, código de computador and so forth. Além disso, os pesquisadores demonstram que podem intervir no centro semântico de um modelo por Usando o texto na linguagem dominante do modelo para alterar suas saídas, mesmo quando o modelo está processando dados em outros idiomas.

Essas descobertas podem ajudar os cientistas a treinar futuros LLMs que são mais capazes de lidar com diversos dados.

“LLMs são grandes caixas pretas. Eles alcançaram desempenho muito impressionante, mas temos muito pouco conhecimento sobre seus mecanismos internos de trabalho. Espero que este possa ser um passo antecipado para entender melhor como eles funcionam para que possamos melhorá -los e controlá -los melhor quando necessário ”, diz Zhaofeng Wu, um estudante de pós -graduação de engenharia elétrica e ciência da computação (EECS) e principal autor de A A. Artigo sobre esta pesquisa.

Seus co-autores incluem Xinyan Velocity Yu, um estudante de graduação da Universidade do Sul da Califórnia (USC); Dani Yogatama, professor associado da USC; Jiasen Lu, cientista de pesquisa da Apple; e o autor sênior Yoon Kim, professor assistente de EECs do MIT e membro do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL). A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.

Integrar dados diversos

Os pesquisadores basearam o novo estudo sobre trabalho anterior que sugeriu que os LLMs centrados em inglês usam inglês para realizar processos de raciocínio em vários idiomas.

Wu e seus colaboradores expandiram essa idéia, lançando um estudo aprofundado sobre os mecanismos que o LLMS usa para processar diversos dados.

Um LLM, que é composto por muitas camadas interconectadas, divide o texto de entrada em palavras ou sub-palavras chamadas tokens. O modelo atribui uma representação a cada token, que permite explorar as relações entre os tokens e gerar a próxima palavra em uma sequência. No caso de imagens ou áudio, esses tokens correspondem a regiões específicas de uma imagem ou seções de um clipe de áudio.

Os pesquisadores descobriram que as camadas iniciais do modelo processam dados em sua linguagem ou modalidade específica, como os raios específicos da modalidade no cérebro humano. Em seguida, o LLM converte tokens em representações agnósticas da modalidade, conforme as razões sobre elas ao longo de suas camadas internas, como o hub semântico do cérebro integra diversas informações.

O modelo atribui representações semelhantes a entradas com significados semelhantes, apesar do tipo de dados, incluindo imagens, áudio, código do computador e problemas aritméticos. Embora uma imagem e sua legenda de texto sejam tipos de dados distintos, porque eles compartilham o mesmo significado, o LLM atribuiria representações semelhantes.

Por exemplo, um LLM dominante em inglês “pensa” sobre uma entrada de texto chinês em inglês antes de gerar uma saída em chinês. O modelo tem uma tendência de raciocínio semelhante para entradas não textos, como código de computador, problemas de matemática ou até dados multimodais.

Para testar essa hipótese, os pesquisadores passaram um par de frases com o mesmo significado, mas escritos em dois idiomas diferentes através do modelo. Eles mediram o quão semelhantes foram as representações do modelo para cada frase.

Em seguida, eles realizaram um segundo conjunto de experimentos em que alimentavam um texto modelo dominante em inglês em um idioma diferente, como chinês, e mediram o quão semelhante period sua representação interna ao inglês versus chinês. Os pesquisadores realizaram experimentos semelhantes para outros tipos de dados.

Eles descobriram consistentemente que as representações do modelo eram semelhantes para sentenças com significados semelhantes. Além disso, em muitos tipos de dados, os tokens que o modelo processado em suas camadas internas period mais parecido com os tokens centrados em inglês do que o tipo de dados de entrada.

“Muitos desses tipos de dados de entrada parecem extremamente diferentes da linguagem, por isso ficamos muito surpresos por podermos investigar as tochens em inglês quando o modelo processa, por exemplo, expressões matemáticas ou codificadoras”, diz Wu.

Aproveitando o centro semântico

Os pesquisadores acham que o LLMS pode aprender essa estratégia de hub semântica durante o treinamento, porque é uma maneira econômica de processar dados variados.

“Existem milhares de idiomas por aí, mas muito do conhecimento é compartilhado, como conhecimento de senso comum ou conhecimento factual. O modelo não precisa duplicar esse conhecimento entre os idiomas ”, diz Wu.

Os pesquisadores também tentaram intervir nas camadas internas do modelo usando o texto em inglês quando ele estava processando outros idiomas. Eles descobriram que poderiam alterar previsivelmente as saídas do modelo, mesmo que essas saídas estivessem em outros idiomas.

Os cientistas podem alavancar esse fenômeno para incentivar o modelo a compartilhar o máximo de informações possível em diversos tipos de dados, potencialmente aumentando a eficiência.

Mas, por outro lado, pode haver conceitos ou conhecimentos que não são traduzíveis entre idiomas ou tipos de dados, como conhecimento culturalmente específico. Os cientistas podem querer que os LLMs tenham alguns mecanismos de processamento específicos para idiomas nesses casos.

“Como você compartilha ao máximo sempre que possível, mas também permite que os idiomas tenham alguns mecanismos de processamento específicos para idiomas? Isso pode ser explorado em trabalhos futuros em arquiteturas de modelos ”, diz Wu.

Além disso, os pesquisadores podem usar essas idéias para melhorar os modelos multilíngues. Freqüentemente, um modelo dominante em inglês que aprende a falar outro idioma perde parte de sua precisão em inglês. Uma melhor compreensão do centro semântico de um LLM pode ajudar os pesquisadores a impedir essa interferência no idioma, diz ele.

“Compreender como os modelos de idiomas processam entradas entre idiomas e modalidades é uma questão -chave na inteligência synthetic. Este artigo faz uma conexão interessante com a neurociência e mostra que a proposta de ‘hipótese do hub semântico’ é mantida nos modelos de idiomas modernos, onde representações semanticamente semelhantes de diferentes tipos de dados são criadas nas camadas intermediárias do modelo ”, diz Mor Geva Pipek, professor assistente em A Escola de Ciência da Computação da Universidade de Tel Aviv, que não estava envolvida com este trabalho. “A hipótese e os experimentos vinculam e estendem muito bem as descobertas de trabalhos anteriores e podem ser influentes para pesquisas futuras sobre a criação de melhores modelos multimodais e o estudo de vínculos entre eles e a função cerebral e a cognição em humanos”.

Esta pesquisa é financiada, em parte, pelo MIT-IBM Watson AI Lab.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *