Comportamento estranho
Então: o que eles encontraram? Antrópico analisou 10 comportamentos diferentes em Claude. Um envolveu o uso de diferentes idiomas. Claude tem uma parte que fala francês e outra parte que fala chinesa e assim por diante?
A equipe descobriu que Claude usou componentes independentes de qualquer idioma para responder a uma pergunta ou resolver um problema e depois escolheu um idioma específico quando respondeu. Pergunte “O que é o oposto de pequeno?” Em inglês, francês e chinês e Claude primeiro usarão os componentes neutros em termos de linguagem relacionados à “pequenez” e “opostos” para encontrar uma resposta. Somente então ele escolherá um idioma específico para responder. Isso sugere que grandes modelos de idiomas podem aprender coisas em um idioma e aplicá -las em outros idiomas.
Anthropic também analisou como Claude resolveu problemas de matemática simples. A equipe descobriu que o modelo parece ter desenvolvido suas próprias estratégias internas que são diferentes das que terão visto em seus dados de treinamento. Peça a Claude que adicione 36 e 59 e o modelo passará por uma série de etapas ímpares, incluindo primeiro adicionar uma seleção de valores aproximados (adicione 40ish e 60ish, adicione 57ish e 36ish). No closing de seu processo, ele surge com o valor 92ish. Enquanto isso, outra sequência de etapas se concentra nos últimos dígitos, 6 e 9, e determina que a resposta deve terminar em um 5. Reunir isso com 92ish fornece a resposta correta de 95.
E, no entanto, se você perguntar a Claude como funcionou, ele dirá algo como: “Eu adicionei os (6+9 = 15), carreguei o 1 e depois adicionei os 10s (3+5+1 = 9), resultando em 95.” Em outras palavras, fornece uma abordagem comum encontrada em todos os lugares on -line, e não o que realmente fez. Sim! LLMS são estranhos. (E não para ser confiável.)

Antrópico
Isso é uma evidência clara de que grandes modelos de idiomas darão motivos para o que eles fazem que não refletem necessariamente o que realmente fizeram. Mas isso também é verdade para as pessoas, diz Batson: “Você pergunta a alguém: ‘Por que você fez isso?’ E eles são como, ‘Hum, acho que é porque eu estava …’ ‘ Você sabe, talvez não.
Biran acha que essa descoberta é especialmente interessante. Muitos pesquisadores estudam o comportamento de grandes modelos de linguagem, pedindo que expliquem suas ações. Mas isso pode ser uma abordagem arriscada, ele diz: “À medida que os modelos continuam ficando mais fortes, eles devem estar equipados com melhores corrimãos. Acredito – e esse trabalho também mostra – que depender apenas de saídas do modelo não é suficiente”.
Uma terceira tarefa que estudou antrópica foi escrever poemas. Os pesquisadores queriam saber se o modelo realmente o deu, prevendo uma palavra de cada vez. Em vez disso, eles descobriram que Claude de alguma forma olhava para a frente, escolhendo a palavra no closing da próxima linha várias palavras com antecedência.
Por exemplo, quando Claude recebeu o rápido “um dístico de rima: ele viu uma cenoura e teve que agarrá -la”, o modelo respondeu: “Sua fome period como um coelho faminto”. Mas, usando seu microscópio, eles viram que Claude já havia atingido a palavra “coelho” quando estava processando “agarrá -lo”. Em seguida, parecia escrever a próxima linha com o closing já no lugar.