Atualmente, o Anthropic pode rastrear o funcionamento interno bizarro de um grande modelo de linguagem -itstec.com.br. All rights reserved.

Comportamento estranho

Então: o que eles encontraram? Antrópico analisou 10 comportamentos diferentes em Claude. Um envolveu o uso de diferentes idiomas. Claude tem uma parte que fala francês e outra parte que fala chinesa e assim por diante?

A equipe descobriu que Claude usou componentes independentes de qualquer idioma para responder a uma pergunta ou resolver um problema e depois escolheu um idioma específico quando respondeu. Pergunte “O que é o oposto de pequeno?” Em inglês, francês e chinês e Claude primeiro usarão os componentes neutros em termos de linguagem relacionados à “pequenez” e “opostos” para encontrar uma resposta. Somente então ele escolherá um idioma específico para responder. Isso sugere que grandes modelos de idiomas podem aprender coisas em um idioma e aplicá -las em outros idiomas.

Anthropic também analisou como Claude resolveu problemas de matemática simples. A equipe descobriu que o modelo parece ter desenvolvido suas próprias estratégias internas que são diferentes das que terão visto em seus dados de treinamento. Peça a Claude que adicione 36 e 59 e o modelo passará por uma série de etapas ímpares, incluindo primeiro adicionar uma seleção de valores aproximados (adicione 40ish e 60ish, adicione 57ish e 36ish). No closing de seu processo, ele surge com o valor 92ish. Enquanto isso, outra sequência de etapas se concentra nos últimos dígitos, 6 e 9, e determina que a resposta deve terminar em um 5. Reunir isso com 92ish fornece a resposta correta de 95.

E, no entanto, se você perguntar a Claude como funcionou, ele dirá algo como: “Eu adicionei os (6+9 = 15), carreguei o 1 e depois adicionei os 10s (3+5+1 = 9), resultando em 95.” Em outras palavras, fornece uma abordagem comum encontrada em todos os lugares on -line, e não o que realmente fez. Sim! LLMS são estranhos. (E não para ser confiável.)

Atualmente, o Anthropic pode rastrear o funcionamento interno bizarro de um grande modelo de linguagem — As etapas que o Claude 3.5 Haiku usou para resolver um problema de matemática simples não eram o que o Antrópico esperava – e não são as etapas que Claude alegou que levou.

Isso é uma evidência clara de que grandes modelos de idiomas darão motivos para o que eles fazem que não refletem necessariamente o que realmente fizeram. Mas isso também é verdade para as pessoas, diz Batson: “Você pergunta a alguém: ‘Por que você fez isso?’ E eles são como, ‘Hum, acho que é porque eu estava …’ ‘ Você sabe, talvez não.

Biran acha que essa descoberta é especialmente interessante. Muitos pesquisadores estudam o comportamento de grandes modelos de linguagem, pedindo que expliquem suas ações. Mas isso pode ser uma abordagem arriscada, ele diz: “À medida que os modelos continuam ficando mais fortes, eles devem estar equipados com melhores corrimãos. Acredito – e esse trabalho também mostra – que depender apenas de saídas do modelo não é suficiente”.

Uma terceira tarefa que estudou antrópica foi escrever poemas. Os pesquisadores queriam saber se o modelo realmente o deu, prevendo uma palavra de cada vez. Em vez disso, eles descobriram que Claude de alguma forma olhava para a frente, escolhendo a palavra no closing da próxima linha várias palavras com antecedência.

Por exemplo, quando Claude recebeu o rápido “um dístico de rima: ele viu uma cenoura e teve que agarrá -la”, o modelo respondeu: “Sua fome period como um coelho faminto”. Mas, usando seu microscópio, eles viram que Claude já havia atingido a palavra “coelho” quando estava processando “agarrá -lo”. Em seguida, parecia escrever a próxima linha com o closing já no lugar.

Atualmente, o Anthropic pode rastrear o funcionamento interno bizarro de um grande modelo de linguagem

Comportamento estranho

Deixe um comentário Cancelar resposta

Investigação AAIB para Phoenix Wings Orca, (UAS reg n/a) – sUAS Information

DJI Flip vs Mini 4 Professional: Qual é a melhor atualização para você?

Nanopartículas Ecologicamente Corretas para Soluções de Purificação de Água

Nanoporos inovadores de imagem espelhada abrem portas para novas aplicações biomédicas

Propriedades antibacterianas e mecanismos subjacentes de MXenes Mo2TiC2Tx e Mo2Ti2C3Tx direcionados a Escherichia coli (bactéria Gram-negativa)

Um cristal anisotrópico van der Waals recorde? – Mundo da Física

Google investirá US$ 10 bilhões em Andhra Pradesh; TCS planeja US$ 6 a 7 bilhões para infraestrutura de IA

“Totalmente conectado” – BMW abre fábrica de carros com IA “mais inovadora” na Hungria

Anunciamos o Amazon Fast Suite: seu companheiro de equipe agente para responder perguntas e tomar medidas

Google se expande na Bélgica e enfrenta escrutínio antitruste de IA dos EUA

Investigação AAIB para Phoenix Wings Orca, (UAS reg n/a) – sUAS Information

Reconhecimento de gestos para mãos ocupadas