Pensando na ‘ilusão de pensar’ – por que a Apple tem um ponto


Nos últimos dias, o provocativamente intitulado Paper da Apple, A ilusão de pensarprovocou novos debates nos círculos da IA. A reivindicação é acentuada: os modelos de idiomas de hoje não realmente “razão”. Em vez disso, eles simulam a aparência do raciocínio até que a complexidade revele as rachaduras em sua lógica. Não é de surpreender que o artigo tenha desencadeado uma refutação – intitulada, A ilusão da ilusão de pensar.

Alex Lawen, que inicialmente publicou o comentário sobre o serviço de distribuição Arxiv como uma piadaaparentemente. A piada ficou fora de controle e a resposta foi amplamente divulgada. Piada ou não – o LLM realmente desmascarou a tese da Apple? Não exatamente.

O que a Apple mostra

Pensando na ‘ilusão de pensar’ – por que a Apple tem um ponto
Sukhareva – Os modelos não se elevam para desafiar

A equipe da Apple decidiu investigar se os modelos de IA podem realmente raciocinar-ou se estão apenas imitando a solução de problemas com base em exemplos memorizados. Para fazer isso, a equipe projetou tarefas em que a complexidade poderia ser escalada em incrementos controlados: mais discos na Torre de Hanói, mais damas em verificadores de salto, mais caracteres na travessia de rios, mais blocos no mundo dos blocos.

A suposição é simples: se um modelo dominar o raciocínio em casos mais simples, ele deve ser capaz de estender esses mesmos princípios para os mais complexos – especialmente quando a ampla computação e o comprimento do contexto permanecerem disponíveis. Mas não é isso que acontece. O Apple Paper descobre que, mesmo quando operando bem dentro de seus orçamentos e recursos de inferência, os modelos não se destacam ao desafio.

Em vez disso, eles geram saídas mais curtas e menos estruturadas à medida que a complexidade aumenta. Isso sugere um tipo de “desistir”, não uma luta contra restrições difíceis. Ainda mais revelador, o artigo descobre que os modelos geralmente reduzem seu esforço de raciocínio exatamente quando é necessário mais esforço. Como evidência adicional, a Apple faz referência a perguntas de referência 2024 e 2025 do American Invitational Arithmetic Examination (AIME), uma prestigiada competição de matemática dos EUA para estudantes do ensino médio.

Embora o desempenho humano melhore ano a ano, as pontuações do modelo diminuem para mais o lote invisível de 2025-apoiando a idéia de que o sucesso da IA ​​ainda depende fortemente de padrões memorizados e não da solução de problemas flexíveis.

Onde Claude falha

O contra -argumento depende da idéia de que os modelos de idiomas truncem as respostas não porque não conseguem raciocinar, mas porque “sabem” a saída está se tornando muito longa. Um exemplo citado mostra um modelo interrompendo o meio da resolução com um comentário autoconsciente: “O padrão continua, mas para evitar fazer isso por muito tempo, vou parar por aqui”.

Isso é apresentado como evidência de que os modelos entendem a tarefa, mas escolhem a brevidade.

Mas é anedótico, na melhor das hipóteses – extraído de um único put up de mídia social – e dá um grande salto inferencial. Até o engenheiro que publicou originalmente o exemplo não endossa completamente a conclusão da refutação. Eles apontam que a aleatoriedade de maior geração (“temperatura”) leva a erros acumulados, especialmente em sequências mais longas – portanto, parar no início pode não indicar entendimento, mas a evasão de entropia.

A refutação também invoca um enquadramento probabilístico: que cada movimento em uma solução é como um flip de moedas e, eventualmente, até uma pequena taxa de erro por toque prejudicará uma sequência longa. Mas o raciocínio não é apenas geração probabilística; É reconhecimento e abstração de padrões. Depois que um modelo identifica uma estrutura de solução, as etapas posteriores não devem ser suposições independentes – elas devem ser deduzidas. A refutação não representa isso.

Mas a verdadeira falta da refutação é o argumento de que os modelos podem ter sucesso se solicitado a gerar código. Mas isso sente falta de todo o ponto. O objetivo da Apple não period testar se os modelos poderiam recuperar algoritmos enlatados; Period para avaliar sua capacidade de raciocinar através da estrutura do problema por conta própria. Se um modelo resolver um problema simplesmente reconhecendo que ele deve chamar ou gerar uma ferramenta ou peça de código específica, ele não é realmente raciocínio – é apenas lembrar uma solução ou um padrão.

Em outras palavras, se um modelo de IA vê a torre do quebra -cabeça de Hanói e responde emitindo o código Lua que ele ‘viu’ antes, ele está apenas correspondendo ao problema com um modelo conhecido e recuperando a ferramenta correspondente. Não é ‘pensar’ através do problema; É apenas uma pesquisa sofisticada da biblioteca.

Onde isso nos deixa

Para ficar claro, o papel da Apple não é à prova de balas. Seu tratamento do quebra -cabeça do cruzamento do rio é um ponto fraco. Uma vez que pessoas são adicionadas ao quebra -cabeça, o problema se torna inacessível. E, no entanto, a referência da Apple marca uma resposta “sem solução” como errada. Isso é um erro. Mas o problema é que o desempenho do modelo já entrou em colapso antes que o problema se torne insolúvel-o que sugere que a queda não acontece não à beira da razão, mas muito antes dele.

Em conclusão, a resposta da refutação, independentemente de a IA assistida ou a IA gerada, levanta questões importantes, especialmente em torno dos métodos de avaliação e autoconsciência do modelo. Mas a refutação repousa mais sobre a anedota e enquadramento hipotético do que em uma contra-evidência rigorosa. A reivindicação unique da Apple – de que os modelos atuais simulam o raciocínio sem escalá -lo – permanece amplamente intacto. E não é realmente novo; Os cientistas de dados vêm dizendo isso há muito tempo.

Mas sempre ajuda, é claro, quando grandes empresas como a Apple apoiam a ciência predominante. O papel da Apple pode parecer confrontador, às vezes – no título, sozinho. Mas sua análise é atenciosa e bem apoiada. O que revela é uma verdade com a qual a comunidade da IA ​​deve lidar com: o raciocínio é mais do que a geração de token e, sem mudanças arquitetônicas mais profundas, os modelos de hoje podem permanecer presos nessa ilusão de pensamento.

Maria Sukhareva trabalha no campo da IA ​​há 15 anos – no treinamento de modelos de IA e gerenciamento de produtos. Ela é principal especialista em IA na Siemens. Os pontos de vista expressos estão acima dos seus, e não de seu empregador. A página do weblog dela é aqui; O web site dela é aqui.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *