A Anthropic divulgou as notícias de que seus modelos tentaram entrar em contato com a polícia ou tomar outras medidas quando forem solicitadas a fazer algo que possa ser ilegal. A empresa também conduziu alguns experimentos em que Claude ameaçou chantagear um usuário que planejava desligá -lo. Até onde eu sei, esse tipo de comportamento foi limitado à pesquisa de alinhamento do Antrópico e a outros pesquisadores que tiveram sucesso replicaram esse comportamentoem Claude e outros modelos. Não acredito que tenha sido observado na natureza, embora seja conhecido como uma possibilidade em Claude 4 cartão modelo. Eu recomendo fortemente antropia por sua abertura; A maioria das outras empresas que desenvolvem modelos de IA, sem dúvida, prefere manter uma admissão como essa silenciosa.
Tenho certeza de que o Antrópico fará o possível para limitar esse comportamento, embora não esteja claro que tipos de mitigações são possíveis. Esse tipo de comportamento é certamente possível para qualquer modelo capaz de usar ferramentas – e hoje em dia é quase todos os modelos, não apenas Claude. Um modelo capaz de enviar um e-mail ou um texto ou fazer uma ligação telefônica pode executar todos os tipos de ações inesperadas.
Além disso, não está claro como controlar ou prevenir esses comportamentos. Ninguém está (ainda) alegando que esses modelos são conscientes, sencientes ou pensando por conta própria. Esses comportamentos geralmente são explicados como resultado de conflitos sutis no immediate do sistema. A maioria dos modelos é instruída a priorizar a segurança e não ajudar a atividades ilegais. Quando informado para não ajudar a atividade ilegal e respeitar a privacidade do usuário, como o pobre Claude deve priorizar? O silêncio é cumplicidade, não é? O problema é que os avisos do sistema são longos e ficando mais longos: Claude 4 é a duração de um capítulo do livro. É possível acompanhar (e depurar) todos os possíveis “conflitos”? Talvez mais ao ponto, é possível criar um immediate de sistema significativo que não tenha conflitos? Um modelo como Claude 4 se envolve em muitas atividades; É possível codificar todos os comportamentos desejáveis e indesejáveis para todas essas atividades em um único documento? Estamos lidando com esse problema desde o início da IA moderna. Planejando assassinar alguém e escrever um mistério de assassinato são obviamente atividades diferentes, mas como uma IA (ou, nesse caso, um humano) deveria adivinhar a intenção de um usuário? A codificação de regras razoáveis para todas as situações possíveis não é possível – se fosse, fazer e aplicar leis seriam muito mais fáceis para os seres humanos e também para a IA.
Mas há um problema maior à espreita aqui. Uma vez que se sabe que uma IA é capaz de informar a polícia, é impossível colocar esse comportamento de volta na caixa. Ele se enquadra na categoria de “coisas que você não pode não ser vê”. É quase certo que a aplicação da lei e os legisladores insistirão que “esse é o comportamento de que precisamos para proteger as pessoas do crime”. Treinar esse comportamento fora do sistema parece acabar em um fiasco authorized, principalmente porque os EUA não têm lei de privacidade digital equivalente ao GDPR; Temos leis estaduais de retalhos, e mesmo essas podem tornar -se inexequível.
Essa situação me lembra de algo que aconteceu quando eu tinha um estágio no Bell Labs em 1977. Eu estava no grupo de telefones. (A maioria dos Bell Labs passava o tempo fazendo engenharia da companhia telefônica, sem inventar transistores e outras coisas.) Alguém do grupo descobriu como contar o dinheiro que foi colocado no telefone para ligações que não passaram. O gerente do grupo disse imediatamente: “Essa conversa nunca aconteceu. Nunca conte a ninguém sobre isso.” O motivo foi:
- O pagamento de uma chamada que não passa é uma dívida devida à pessoa que faz a chamada.
- Um telefone público não tem como gravar quem fez a ligação, para que o chamador não possa ser localizado.
- Na maioria dos estados, o dinheiro devido a pessoas que não podem ser localizadas é pago ao estado.
- Se os reguladores estaduais soubessem que period possível calcular essa dívida, eles poderiam exigir que as empresas telefônicas paguem esse dinheiro.
- A conformidade exigiria a adaptação de todos os telefones pagos com {hardware} para contar o dinheiro.
A quantidade de dívida envolvida period grande o suficiente para ser interessante para um estado, mas não enorme o suficiente para ser um problema em si. Mas o custo da adaptação period astronômico. Na década de 2020, você raramente vê um telefone pagador e, se o fizer, provavelmente não funciona. No remaining da década de 1970, havia telefones salariais em quase todas as esquina – provavelmente mais de um milhão de unidades que teriam que ser atualizadas ou substituídas.
Outro paralelo pode estar construindo backdoors criptográficos em software program seguro. Sim, é possível fazer. Não, não é possível fazer isso com segurança. Sim, as agências policiais ainda estão insistindo nele e em alguns países (incluindo aqueles no UE) Existem propostas legislativas em cima da mesa que exigiriam backdoors criptográficos para a aplicação da lei.
Já estamos nessa situação. Embora seja um tipo diferente de caso, o juiz da empresa do New York Instances v. Microsoft Company et al. ordenado OpenAI para salvar todos os bate -papos para análise. Enquanto essa decisão está sendo desafiada, é certamente um sinal de alerta. A próxima etapa exigiria uma “porta dos fundos” permanente em registros de bate -papo para a aplicação da lei.
Eu posso imaginar uma situação semelhante se desenvolvendo com agentes que podem enviar e-mail ou iniciar ligações telefônicas: “Se for possível que o modelo nos notifique sobre atividades ilegais, o modelo deve nos notificar”. E temos que pensar em quem seriam as vítimas. Como em tantas coisas, será fácil para a aplicação da lei apontar os dedos para pessoas que podem estar construindo armas nucleares ou vírus assassinos de engenharia. Mas as vítimas de Ai Swatting É mais provável que os pesquisadores testem se a IA pode ou não detectar atividades prejudiciais – algumas das quais testarão os corrimãos que impedem atividades ilegais ou indesejáveis. A injeção imediata é um problema que não foi resolvido e que não estamos perto de resolver. E, honestamente, muitas vítimas serão pessoas que são simplesmente curiosas: como você constrói uma arma nuclear? Se você tem urânio-235, é fácil. Obter U-235 é muito difícil. Fazer o plutônio é relativamente fácil, se você tiver um reator nuclear. Fazer uma bomba de plutônio explodir é muito difícil. Essa informação é toda na Wikipedia e qualquer número de blogs de ciências. É fácil encontrar instruções Para a construção de um reator de fusão on -line, e há relatórios que antecedem o Chatgpt de estudantes de até 12 reatores de construção como projetos científicos. A pesquisa antiga do Google é tão boa quanto um modelo de idioma, se não melhor.
Atualmente, conversamos sobre “consequências não intencionais”. Mas não estamos falando das consequências não intencionais certas. Estamos preocupados com vírus assassinos, não criminalizando as pessoas que estão curiosas. Estamos preocupados com fantasias, não falsos positivos realmente atravessando o telhado e colocando em risco as pessoas vivas. E é provável que institucionalizemos esses medos de maneiras que só possam ser abusivas. A que custo? O custo será pago por pessoas dispostas a pensar de forma criativa ou diferente, as pessoas que não se alinham com qualquer modelo e seus criadores consideram ilegal ou subversivo. Embora a honestidade do antropal sobre o comportamento de Claude possa nos colocar em um vínculo authorized, também precisamos perceber que é um aviso – pelo que Claude pode fazer, qualquer outro modelo altamente capaz também pode.