Grandes modelos de linguagem podem fazer coisas impressionantes, como escrever poesia ou gerar programas de computador viáveis, mesmo que esses modelos sejam treinados para prever as palavras que vêm a seguir em um trecho de texto.
Essas capacidades surpreendentes podem fazer parecer que os modelos estão aprendendo implicitamente algumas verdades gerais sobre o mundo.
Mas esse não é necessariamente o caso, de acordo com um novo estudo. Os pesquisadores descobriram que um tipo fashionable de modelo generativo de IA pode fornecer instruções de direção passo a passo na cidade de Nova York com precisão quase perfeita – sem ter formado um mapa interno preciso da cidade.
Apesar da incrível capacidade do modelo de navegar de forma eficaz, quando os investigadores fecharam algumas ruas e acrescentaram desvios, o seu desempenho despencou.
Quando se aprofundaram, os pesquisadores descobriram que os mapas de Nova York que o modelo gerado implicitamente tinham muitas ruas inexistentes curvando-se entre a grade e conectando cruzamentos distantes.
Isto pode ter sérias implicações para os modelos generativos de IA implantados no mundo actual, uma vez que um modelo que parece ter um bom desempenho num determinado contexto pode falhar se a tarefa ou o ambiente mudar ligeiramente.
“Uma esperança é que, como os LLMs podem realizar todas essas coisas incríveis na linguagem, talvez pudéssemos usar essas mesmas ferramentas também em outras partes da ciência. Mas a questão de saber se os LLMs estão aprendendo modelos mundiais coerentes é muito importante se quisermos usar essas técnicas para fazer novas descobertas”, diz o autor sênior Ashesh Rambachan, professor assistente de economia e investigador principal do Laboratório de Sistemas de Informação e Decisão do MIT. (TAMPAS).
Rambachan se junta a um artigo sobre o trabalho pelo autor principal Keyon Vafa, pós-doutorado na Universidade de Harvard; Justin Y. Chen, estudante de graduação em engenharia elétrica e ciência da computação (EECS) no MIT; Jon Kleinberg, professor de Ciência da Computação e Ciência da Informação da Tisch College na Cornell College; e Sendhil Mullainathan, professor do MIT nos departamentos de EECS e de Economia, e membro do LIDS. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.
Novas métricas
Os pesquisadores se concentraram em um tipo de modelo generativo de IA conhecido como transformador, que forma a espinha dorsal de LLMs como o GPT-4. Os transformadores são treinados em uma enorme quantidade de dados baseados em linguagem para prever o próximo token em uma sequência, como a próxima palavra em uma frase.
Mas se os cientistas quiserem determinar se um LLM formou um modelo preciso do mundo, medir a precisão das suas previsões não é suficiente, dizem os investigadores.
Por exemplo, eles descobriram que um transformador pode prever movimentos válidos em um jogo de Join 4 quase todas as vezes, sem compreender nenhuma das regras.
Assim, a equipe desenvolveu duas novas métricas que podem testar o modelo mundial de um transformador. Os pesquisadores concentraram suas avaliações em uma classe de problemas chamada automações finitas determinísticas, ou DFAs.
Um AFD é um problema com uma sequência de estados, como interseções que se deve atravessar para chegar a um destino, e uma forma concreta de descrever as regras que se devem seguir ao longo do caminho.
Eles escolheram dois problemas para formular como AFDs: navegar pelas ruas da cidade de Nova York e jogar o jogo de tabuleiro Otelo.
“Precisávamos de bancos de ensaio onde soubéssemos qual é o modelo mundial. Agora podemos pensar rigorosamente sobre o que significa recuperar esse modelo mundial”, explica Vafa.
A primeira métrica que desenvolveram, chamada distinção de sequência, diz que um modelo formou um modelo de mundo coerente que vê dois estados diferentes, como dois tabuleiros Othello diferentes, e reconhece como eles são diferentes. Sequências, isto é, listas ordenadas de pontos de dados, são o que os transformadores usam para gerar saídas.
A segunda métrica, chamada compressão de sequência, diz que um transformador com um modelo de mundo coerente deve saber que dois estados idênticos, como duas placas Othello idênticas, têm a mesma sequência de possíveis próximos passos.
Eles usaram essas métricas para testar duas courses comuns de transformadores, uma que é treinada em dados gerados a partir de sequências produzidas aleatoriamente e a outra em dados gerados pelas estratégias a seguir.
Modelos mundiais incoerentes
Surpreendentemente, os investigadores descobriram que os transformadores que faziam escolhas aleatoriamente formavam modelos de mundo mais precisos, talvez porque viram uma maior variedade de possíveis próximos passos durante o treino.
“Em Othello, se você vir dois computadores aleatórios jogando em vez de jogadores campeões, em teoria você veria o conjunto completo de movimentos possíveis, até mesmo os movimentos ruins que os jogadores campeões não fariam”, explica Vafa.
Embora os transformadores gerassem direções precisas e movimentos de Otelo válidos em quase todos os casos, as duas métricas revelaram que apenas um gerou um modelo de mundo coerente para movimentos de Otelo, e nenhum teve um bom desempenho na formação de modelos de mundo coerentes no exemplo de orientação.
Os pesquisadores demonstraram as implicações disso adicionando desvios ao mapa da cidade de Nova York, o que causou a falha de todos os modelos de navegação.
“Fiquei surpreso com a rapidez com que o desempenho se deteriorou assim que adicionamos um desvio. Se fecharmos apenas 1% das ruas possíveis, a precisão cai imediatamente de quase 100% para apenas 67%”, diz Vafa.
Quando recuperaram os mapas da cidade gerados pelos modelos, eles pareciam uma cidade de Nova York imaginada, com centenas de ruas entrecruzadas e sobrepostas no topo da grade. Os mapas frequentemente continham sobrevoos aleatórios sobre outras ruas ou múltiplas ruas com orientações impossíveis.
Esses resultados mostram que os transformadores podem ter um desempenho surpreendentemente bom em determinadas tarefas sem compreender as regras. Se os cientistas quiserem construir LLMs que possam capturar modelos mundiais precisos, eles precisam adotar uma abordagem diferente, dizem os pesquisadores.
“Muitas vezes vemos esses modelos fazerem coisas impressionantes e pensamos que devem ter entendido algo sobre o mundo. Espero que possamos convencer as pessoas de que esta é uma questão a ser considerada com muito cuidado e que não precisamos confiar em nossas próprias intuições para respondê-la”, diz Rambachan.
No futuro, os investigadores querem abordar um conjunto mais diversificado de problemas, como aqueles em que algumas regras são apenas parcialmente conhecidas. Eles também querem aplicar suas métricas de avaliação a problemas científicos do mundo actual.
Este trabalho é financiado, em parte, pela Harvard Information Science Initiative, uma bolsa de pesquisa de pós-graduação da Nationwide Science Basis, uma bolsa de estudos Vannevar Bush, uma bolsa de colaboração Simons e uma bolsa da Fundação MacArthur.