O custo de pensar | Notícias do MIT



O custo de pensar | Notícias do MIT

Grandes modelos de linguagem (LLMs) como ChatGPT podem escrever uma redação ou planejar um menu quase que instantaneamente. Mas até recentemente, também period fácil confundi-los. Os modelos, que dependem de padrões de linguagem para responder às dúvidas dos usuários, muitas vezes falhavam em problemas matemáticos e não eram bons em raciocínios complexos. De repente, porém, eles ficaram muito melhores nessas coisas.

Uma nova geração de LLMs conhecidos como modelos de raciocínio está sendo treinada para resolver problemas complexos. Tal como os humanos, eles precisam de algum tempo para pensar em problemas como estes – e, surpreendentemente, os cientistas do Instituto McGovern de Investigação do Cérebro do MIT descobriram que os tipos de problemas que requerem mais processamento a partir de modelos de raciocínio são exactamente os mesmos problemas com os quais as pessoas precisam de dedicar o seu tempo. Em outras palavras, eles relatório hoje no jornal PNASo “custo de pensar” para um modelo de raciocínio é semelhante ao custo de pensar para um ser humano.

Os pesquisadores, liderados por Evelina Fedorenkoprofessor associado de ciências cerebrais e cognitivas e investigador do Instituto McGovern, conclui que, pelo menos de uma forma importante, os modelos de raciocínio têm uma abordagem de pensamento semelhante à humana. Isso, eles observam, não é intencional. “As pessoas que constroem estes modelos não se importam se o fazem como seres humanos. Eles apenas querem um sistema que funcione de forma robusta sob todos os tipos de condições e produza respostas corretas”, diz Fedorenko. “O fato de haver alguma convergência é realmente impressionante.”

Modelos de raciocínio

Como muitas formas de inteligência synthetic, os novos modelos de raciocínio são redes neurais artificiais: ferramentas computacionais que aprendem como processar informações quando recebem dados e um problema para resolver. As redes neurais artificiais têm sido muito bem sucedidas em muitas das tarefas que as próprias redes neurais do cérebro realizam bem – e em alguns casos, os neurocientistas descobriram que aquelas que têm melhor desempenho partilham certos aspectos do processamento de informação no cérebro. Ainda assim, alguns cientistas argumentaram que a inteligência synthetic não estava preparada para assumir aspectos mais sofisticados da inteligência humana.

“Até recentemente, eu estava entre as pessoas que diziam: ‘Esses modelos são realmente bons em coisas como percepção e linguagem, mas ainda vai demorar muito até que tenhamos modelos de redes neurais que possam raciocinar”, diz Fedorenko. “Então surgiram esses grandes modelos de raciocínio e parecem ter um desempenho muito melhor em muitas dessas tarefas de raciocínio, como resolver problemas matemáticos e escrever trechos de código de computador.”

Andrea Gregor de Varda, Ok. Lisa Yang Centro ICoN Fellow e pós-doutorado no laboratório de Fedorenko, explica que os modelos de raciocínio resolvem os problemas passo a passo. “Em algum momento, as pessoas perceberam que os modelos precisavam de mais espaço para realizar os cálculos reais necessários para resolver problemas complexos”, diz ele. “O desempenho começou a se tornar muito, muito mais forte se você deixar os modelos dividirem os problemas em partes.”

Para incentivar os modelos a resolver problemas complexos em etapas que levam a soluções corretas, os engenheiros podem usar o aprendizado por reforço. Durante o treinamento, os modelos são recompensados ​​pelas respostas corretas e penalizados pelas erradas. “Os próprios modelos exploram o espaço do problema”, diz de Varda. “As ações que levam a recompensas positivas são reforçadas, para que produzam soluções corretas com mais frequência.”

Os modelos treinados desta forma têm muito mais probabilidade do que os seus antecessores de chegar às mesmas respostas que um ser humano obteria quando lhes fosse dada uma tarefa de raciocínio. Sua solução gradual de problemas significa que os modelos de raciocínio podem demorar um pouco mais para encontrar uma resposta do que os LLMs anteriores – mas como eles estão obtendo respostas certas onde os modelos anteriores teriam falhado, vale a pena esperar por suas respostas.

A necessidade dos modelos de levar algum tempo para resolver problemas complexos já sugere um paralelo com o pensamento humano: se você exigir que uma pessoa resolva um problema difícil instantaneamente, ela provavelmente também falhará. De Varda queria examinar esta relação de forma mais sistemática. Assim, ele deu aos modelos de raciocínio e aos voluntários humanos o mesmo conjunto de problemas e monitorou não apenas se eles acertaram as respostas, mas também quanto tempo ou esforço foram necessários para chegar lá.

Tempo versus tokens

Isso significava medir quanto tempo as pessoas levavam para responder a cada pergunta, até o milissegundo. Para os modelos, Varda utilizou uma métrica diferente. Não fazia sentido medir o tempo de processamento, pois depende mais do {hardware} do computador do que do esforço que o modelo faz para resolver um problema. Então, em vez disso, ele rastreou tokens, que fazem parte da cadeia interna de pensamento de um modelo. “Eles produzem tokens que não são destinados ao usuário ver e trabalhar, mas apenas para ter algum controle da computação interna que estão fazendo”, explica de Varda. “É como se eles estivessem falando sozinhos.”

Tanto os humanos quanto os modelos de raciocínio foram solicitados a resolver sete tipos diferentes de problemas, como aritmética numérica e raciocínio intuitivo. Para cada classe de problemas, eles receberam muitos problemas. Quanto mais difícil period um determinado problema, mais tempo as pessoas levavam para resolvê-lo – e quanto mais tempo as pessoas levavam para resolver um problema, mais tokens um modelo de raciocínio gerava à medida que chegava à sua própria solução.

Da mesma forma, as lessons de problemas que os humanos demoraram mais para resolver foram as mesmas lessons de problemas que exigiram mais tokens para os modelos: os problemas aritméticos foram os menos exigentes, enquanto um grupo de problemas denominado “desafio ARC”, onde pares de grelhas coloridas representam uma transformação que deve ser inferida e depois aplicada a um novo objecto, foram os mais dispendiosos tanto para as pessoas como para os modelos.

De Varda e Fedorenko dizem que a notável correspondência nos custos do pensamento demonstra uma forma pela qual os modelos de raciocínio pensam como os humanos. Isso não significa que os modelos estejam recriando a inteligência humana. Os pesquisadores ainda querem saber se os modelos utilizam representações de informações semelhantes às do cérebro humano e como essas representações se transformam em soluções para problemas. Eles também estão curiosos para saber se os modelos serão capazes de lidar com problemas que exigem conhecimento de mundo que não está explicitado nos textos usados ​​para treinamento de modelos.

Os pesquisadores ressaltam que, embora os modelos de raciocínio gerem monólogos internos à medida que resolvem problemas, eles não usam necessariamente a linguagem para pensar. “Se você observar o resultado que esses modelos produzem durante o raciocínio, ele geralmente contém erros ou alguns bits sem sentido, mesmo que o modelo finalmente chegue a uma resposta correta. Portanto, os cálculos internos reais provavelmente ocorrem em um espaço de representação abstrato e não linguístico, semelhante ao modo como os humanos não usam a linguagem para pensar”, diz ele.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *