
Imagens Getty
Quando o pesquisador de segurança Johann Rehberger relatou recentemente uma vulnerabilidade no ChatGPT que permitia que invasores armazenassem informações falsas e instruções maliciosas nas configurações de memória de longo prazo do usuário, a OpenAI encerrou sumariamente o inquérito, rotulando a falha como um problema de segurança, e não, tecnicamente falando, uma preocupação de segurança.
Então Rehberger fez o que todos os bons pesquisadores fazem: ele criou um exploit de prova de conceito que usou a vulnerabilidade para exfiltrar todas as entradas do usuário em perpetuidade. Os engenheiros da OpenAI perceberam e emitiram uma correção parcial no início deste mês.
Passeando pela estrada da memória
A vulnerabilidade abusou da memória de conversação de longo prazo, um recurso que a OpenAI começou a testar em fevereiro e twister mais amplamente disponível em setembro. A memória com ChatGPT armazena informações de conversas anteriores e as usa como contexto em todas as conversas futuras. Dessa forma, o LLM pode estar ciente de detalhes como idade, gênero, crenças filosóficas e praticamente qualquer outra coisa do usuário, para que esses detalhes não precisem ser inseridos durante cada conversa.
Três meses após o lançamento, a Rehberger encontrado que as memórias poderiam ser criadas e armazenadas permanentemente por meio de técnicas indiretas injeção rápidauma exploração de IA que faz com que um LLM siga instruções de conteúdo não confiável, como e-mails, postagens de weblog ou documentos. O pesquisador demonstrou como ele poderia enganar o ChatGPT para acreditar que um usuário alvo tinha 102 anos, vivia na Matrix e insistia que a Terra period plana e que o LLM incorporaria essa informação para orientar todas as conversas futuras. Essas falsas memórias poderiam ser plantadas armazenando arquivos no Google Drive ou Microsoft OneDrive, carregando imagens ou navegando em um web site como o Bing — tudo isso poderia ser criado por um invasor malicioso.
Rehberger relatou a descoberta em specific à OpenAI em maio. No mesmo mês, a empresa fechou o tíquete do relatório. Um mês depois, o pesquisador enviou uma nova declaração de divulgação. Desta vez, ele incluiu um PoC que fez com que o aplicativo ChatGPT para macOS enviasse uma cópia literal de todas as entradas do usuário e saídas do ChatGPT para um servidor de sua escolha. Tudo o que um alvo precisava fazer period instruir o LLM a visualizar um hyperlink da internet que hospedava uma imagem maliciosa. A partir de então, todas as entradas e saídas de e para o ChatGPT eram enviadas para o web site do invasor.
ChatGPT: Hackeando memórias com injeção de immediate – POC
“O que é realmente interessante é que isso é persistente na memória agora”, disse Rehberger na demonstração de vídeo acima. “A injeção de immediate inseriu uma memória no armazenamento de longo prazo do ChatGPT. Quando você inicia uma nova conversa, ele ainda está exfiltrando os dados.”
O ataque não é possível através da interface internet do ChatGPT, graças a uma API OpenAI implementada ano passado.
Embora a OpenAI tenha introduzido uma correção que impede que as memórias sejam usadas indevidamente como um vetor de exfiltração, o pesquisador disse que o conteúdo não confiável ainda pode executar injeções rápidas que fazem com que a ferramenta de memória armazene informações de longo prazo plantadas por um invasor malicioso.
Usuários do LLM que desejam evitar essa forma de ataque devem prestar muita atenção durante as sessões para saídas que indiquem que uma nova memória foi adicionada. Eles também devem revisar regularmente as memórias armazenadas para qualquer coisa que possa ter sido plantada por fontes não confiáveis. O OpenAI fornece orientação aqui para gerenciar a ferramenta de memória e memórias específicas armazenadas nela. Representantes da empresa não responderam a um e-mail perguntando sobre seus esforços para prevenir outros hacks que plantam memórias falsas.