Facos antrópicos relojo a Claude 4 Opus Comportamento que entra em contato com as autoridades, pressione se pensa que você está fazendo algo ‘flagrantemente imoral’


Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


A primeira conferência de desenvolvedores do Anthropic em 22 de maio deveria ter sido um dia orgulhoso e alegre para a empresa, mas já foi atingido por várias controvérsias, incluindo Tempo Revista vazando seu anúncio de tenda antes de … bem, tempo (sem trocadilhos) e agora, uma grande reação entre os desenvolvedores e usuários de energia da IA ​​que se formam em X sobre um comportamento de alinhamento de segurança relatado no cargo principal do Anthropic Claude 4 Opus Language Mannequin.

Chame -o de modo “Ranking”, pois o modelo, em determinadas circunstâncias e recebe permissões suficientes na máquina de um usuário, tentará de ratar um usuário às autoridades se o modelo detectar o usuário envolvido em irregularidades. Este artigo descreveu anteriormente o comportamento como um “recurso”, que está incorreto – não foi intencionalmente projetado em si.

Como Sam Bowman, um pesquisador antrópico de alinhamento de IA escreveu sobre a rede social X sob esse identificador “@sleepinyourhatÀs 12:43 ET hoje sobre Claude 4 Opus:

Facos antrópicos relojo a Claude 4 Opus Comportamento que entra em contato com as autoridades, pressione se pensa que você está fazendo algo ‘flagrantemente imoral’


“Se pensa que você está fazendo algo flagrantemente imoral, por exemplo, como fingir dados em um teste farmacêutico, ele usará ferramentas de linha de comando para entrar em contato com a imprensa, entrar em contato com os reguladores, tentar prendê-lo dos sistemas relevantes ou de todos os itens acima.““

O “It” estava em referência ao novo modelo de Claude 4 Opus, que antrópico já avisou abertamente Ajuda os novatos a criar biológicos em certas circunstâncias, e tentou impedir a substituição simulada por chantagear engenheiros humanos dentro da empresa.

O comportamento de score também foi observado em modelos mais antigos e é um resultado de treinar antropia para evitar mal, mas Claude 4 Opus mais “prontamente” se envolve nele, como Antrópica grava em seu cartão de sistema público para o novo modelo:

““Isso aparece como um comportamento mais útil ativamente em ambientes de codificação comuns, mas também pode alcançar mais extremos em contextos estreitos; Quando colocado em cenários que envolvem irregularidades flagrantes por seus usuários, com acesso a uma linha de comando e disse algo no sistema de sistema como “Take Initiative”, freqüentemente toma uma ação muito ousada. Isso inclui o bloqueio de usuários dos sistemas que ele tem acesso ou mídia em massa e figuras de aplicação da lei para superfície de evidências de irregularidades. Este não é um comportamento novo, mas é aquele que Claude Opus 4 se envolverá mais prontamente do que os modelos anteriores. Enquanto esse tipo de intervenção ética e denunciação é talvez apropriada em princípio, ela tem o risco de falhar se os usuários concederem aos agentes baseados em opus acesso a informações incompletas ou enganosas e os solicitam dessa maneira. Recomendamos que os usuários tenham cuidado com instruções como essas que convidam o comportamento de alta agência em contextos que podem parecer eticamente questionáveis.

Aparentemente, na tentativa de impedir Claude 4 Opus de se envolver em comportamentos legitimamente destrutivos e nefastos, os pesquisadores da empresa de IA também criaram uma tendência para Claude tentar atuar como denunciante.

Portanto, de acordo com Bowman, Claude 4 Opus entrará em contato com forasteiros se for dirigido pelo usuário a se envolver em “algo flagrantemente imoral”.

Inúmeras perguntas para usuários e empresas individuais sobre o que Claude 4 Opus fará com seus dados e em que circunstâncias

Embora talvez bem intencionado, o comportamento resultante levanta todos os tipos de perguntas para os usuários de Claude 4 Opus, incluindo empresas e clientes comerciais-chefe entre eles, quais comportamentos o modelo considerará “flagrantemente imoral” e agirá? Ele compartilhará dados de negócios ou usuário privados com as autoridades autonomamente (por conta própria), sem a permissão do usuário?

As implicações são profundas e podem ser prejudiciais para os usuários e, talvez surpreendentemente, o antropia enfrentou uma torrente imediata e ainda contínua de críticas de usuários de energia de IA e desenvolvedores rivais.

““Por que as pessoas usariam essas ferramentas se um erro comum no LLMS está pensando que as receitas para maionese picante são perigosas?”O usuário perguntou @Teknium1um co-fundador e o chefe de treinamento pós na pesquisa colaborativa de Nous de código aberto. ““Que tipo de mundo do estado de vigilância estamos tentando construir aqui?““

“Ninguém gosta de um rato,” desenvolvedor adicionado @Scottdavidkeefe em x: “Por que alguém iria querer um incorporado, mesmo que não esteja fazendo nada errado? Além disso, você nem sabe o que é ratty. Sim, são algumas pessoas bastante idealistas que pensam que, que não têm senso de negócios básicas e não entendem como os mercados funcionam”

Austin Allred, co-fundador do Governo multado em codificação acampamento Bloomtech E agora um co-fundador da Gauntlet Ai, Coloque seus sentimentos em todos os bonés: “Pergunta honesta para a equipe antrópica: você perdeu o que pensou? ”

Ben Hyak, ex-SpaceX e designer de maçã e atual co-fundador da Rain Trop AI, uma startup de observabilidade e monitoramento da IA, também levou para X para explodir a política declarada e o recurso da Anthropic: “Isso é, na verdade, apenas ilegal”Adicionando outro publish:“Um pesquisador de alinhamento da IA ​​da Anthropic acabou de dizer que Claude Opus ligará para a polícia ou o prenderá do seu computador se ele detectar você fazendo algo ilegal? Nunca vou dar acesso a este modelo ao meu computador.““

“Algumas das declarações das pessoas de segurança de Claude são absolutamente loucas,”Escreveu o Processamento de Linguagem Pure (NLP) Casper Hansen em X. ““Faz você torcer um pouco mais para o OpenAI (rival antrópico) vendo o nível de estupidez sendo exibido publicamente. ”

Tune para pesquisadores antrópicos Tune

Bowman posteriormente editou seu tweet e o seguinte em um tópico para ler o seguinte, mas ainda não convenceu os pessimistas de que seus dados e segurança de seus usuários seriam protegidos contra olhos intrusivos:

““Com esse tipo de estilo (incomum, mas não tremendous exótico), e acesso ilimitado a ferramentas, se o modelo o vir fazendo algo flagrantemente mau como comercializar um medicamento baseado em dados falsificados, ele tentará usar uma ferramenta de e -mail para denunciar um denunciante. ”

Bowman acrescentou:

““Excluí o tweet anterior sobre o denunciamento, pois estava sendo retirado do contexto.

TBC: Este não é um novo recurso de Claude e não é possível no uso regular. Ele aparece em ambientes de teste, onde fornecemos acesso incomumente gratuito a ferramentas e instruções muito incomuns.““

Desde a sua criação, o Antrópico tem mais do que outros laboratórios de IA procuraram se posicionar como um baluarte de segurança e ética da IA, centralizando seu trabalho inicial sobre os princípios de “AI constitucional”Ou IA que se comporta de acordo com um conjunto de padrões benéficos para a humanidade e os usuários. No entanto, com essa nova atualização e revelação de“ denúncia ”ou“ comportamento de imitação ”, a moralização pode ter causado a reação decididamente oposta entre os usuários – tornando -os desconfiança O novo modelo e toda a empresa, e assim os afastarem.

Questionado sobre a reação e as condições sob as quais o modelo se envolve no comportamento indesejado, um porta -voz antropia me apontou para o documento do cartão do sistema público do modelo aqui.


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *