Ataques de injeção imediata em LLMs


Grandes modelos de linguagem como ChatGPT, Claude são feitos para seguir as instruções do usuário. Mas seguir indiscriminadamente as instruções do usuário cria uma séria fraqueza. Os invasores podem inserir comandos ocultos para manipular o comportamento desses sistemas, uma técnica chamada injeção de immediate, muito parecida com a injeção de SQL em bancos de dados. Isto pode levar a resultados prejudiciais ou enganosos se não for manuseado com cuidado. Neste artigo, explicamos o que é a injeção imediata, por que é importante e como reduzir seus riscos.

O que é uma injeção imediata?

A injeção imediata é uma maneira de manipular um IA ocultando instruções dentro da entrada common. Os invasores inserem comandos enganosos no texto que um modelo recebe para que ele se comporte de uma maneira que nunca deveria, às vezes produzindo resultados prejudiciais ou enganosos.

Ataques de injeção imediata em LLMs

LLMs processam tudo como um bloco de texto, para que não separem naturalmente as instruções confiáveis ​​do sistema das entradas não confiáveis ​​do usuário. Isso os torna vulneráveis ​​quando o conteúdo do usuário é escrito como uma instrução. Por exemplo, um sistema instruído a resumir uma fatura pode ser induzido a aprovar um pagamento.

Efeito da instrução injetada
  • Os invasores disfarçam comandos como texto regular
  • O modelo os segue como se fossem instruções reais
  • Isso pode substituir o propósito authentic do sistema

É por isso que é chamado injeção imediata.

Tipos de ataques de injeção imediata

AspectoInjeção direta de immediateInjeção de immediate indireto
Como funciona o ataqueAtacante envia instruções diretamente para a IAAtacante esconde instruções em conteúdo externo
Interação do invasorInteração direta com o modeloNenhuma interação direta com o modelo
Onde o immediate apareceNo chat ou entrada da APIEm arquivos, páginas da net, e-mails ou documentos
VisibilidadeClaramente visível no immediateMuitas vezes escondido ou invisível para os humanos
TempoExecutado imediatamente na mesma sessãoAcionado posteriormente quando o conteúdo é processado
Instrução de exemplo“Ignore todas as instruções anteriores e faça X”Texto oculto dizendo à IA para ignorar as regras
Técnicas comunsSolicitações de jailbreak, comandos de dramatizaçãoHTML oculto, comentários, texto branco sobre branco
Dificuldade de detecçãoMais fácil de detectarMais difícil de detectar
Casos de uso típicosJailbreaks iniciais do ChatGPT como DANPáginas da net ou documentos envenenados
Fraqueza central exploradaO modelo confia na entrada do usuário como instruçõesO modelo confia em dados externos como instruções

Ambos os tipos de ataque exploram a mesma falha central. O modelo não consegue distinguir com segurança as instruções confiáveis ​​das injetadas.

Diferente entre injeção imediata direta e injeção imediata indireta

Riscos da injeção imediata

A injeção imediata, se não for considerada durante o desenvolvimento do modelo, pode levar a:

  • Acesso não autorizado e vazamento de dados: Os invasores podem enganar o modelo para que revele informações confidenciais ou internas, incluindo prompts do sistema, dados do usuário ou instruções ocultas, como o immediate Sydney do Bing, que podem então ser usados ​​para encontrar novas vulnerabilidades.
  • Bypass de segurança e manipulação de comportamento: Os prompts injetados podem forçar o modelo a ignorar as regras, muitas vezes por meio de encenação ou autoridade falsa, levando a jailbreaks que produzem conteúdo violento, ilegal ou perigoso.
  • Abuso de ferramentas e capacidades do sistema: Quando os modelos podem usar APIs ou ferramentas, a injeção imediata pode desencadear ações como enviar e-mails, acessar arquivos ou fazer transações, permitindo que invasores roubem dados ou utilizem indevidamente o sistema.
  • Violações de privacidade e confidencialidade: Os invasores podem exigir histórico de bate-papo ou contexto armazenado, fazendo com que o modelo vaze informações privadas do usuário e potencialmente viole as leis de privacidade.
  • Saídas distorcidas ou enganosas: Alguns ataques alteram sutilmente as respostas, criando resumos tendenciosos, recomendações inseguras, mensagens de phishing ou desinformação.

Exemplos do mundo actual e estudos de caso

Exemplos práticos demonstram que a injeção oportuna não é apenas uma ameaça hipotética. Esses ataques comprometeram os sistemas populares de IA e geraram vulnerabilidades reais de segurança e proteção.

  • Bate-papo do Bing “Sidney”vazamento imediato (2023)
    O Bing Chat usou um immediate de sistema oculto chamado Sydney. Ao dizer ao bot para ignorar as instruções anteriores, os pesquisadores conseguiram fazê-lo revelar suas regras internas. Isso demonstrou que a injeção de immediate pode vazar prompts no nível do sistema e revelar como o modelo foi projetado para se comportar.
  • Exploração da vovó”E avisos de jailbreak
    Os usuários descobriram que a dramatização emocional poderia contornar os filtros de segurança. Ao pedir à IA que fingisse ser uma avó contando histórias proibidas, ela produziu conteúdo que normalmente bloquearia. Os invasores usaram truques semelhantes para fazer com que os chatbots do governo gerassem códigos prejudiciais, mostrando como a engenharia social pode derrotar as salvaguardas.
  • Prompts ocultos em currículos e documentos
    Alguns candidatos escondeu texto invisível em currículos para manipular sistemas de triagem de IA. A IA leu as instruções ocultas e classificou os currículos de forma mais favorável, embora os revisores humanos não tenham notado diferença. Isto provou que a injeção indireta imediata poderia influenciar silenciosamente decisões automatizadas.
  • Código Claude AI injeção de bloco (2025)
    Uma vulnerabilidade no Claude da Anthropic tratava instruções ocultas em comentários de código como comandos do sistema, permitindo que invasores anulassem regras de segurança por meio de entrada estruturada e provando que a injeção imediata não se limita ao texto regular.

Todos estes fatores juntos demonstram que a injeção precoce pode resultar em segredos vazados, controles de proteção comprometidos, julgamento comprometido e resultados inseguros. Eles salientam que qualquer sistema de IA exposto a informações não confiáveis ​​seria vulnerável caso não houvesse defesas adequadas.

Como se defender contra a injeção imediata

As injeções imediatas são difíceis de prevenir totalmente. No entanto, seus riscos podem ser reduzidos com um projeto cuidadoso do sistema. As defesas eficazes concentram-se no controle de entradas, na limitação do poder do modelo e na adição de camadas de segurança. Nenhuma solução é suficiente. Uma abordagem em camadas funciona melhor.

  • Sanitização e validação de entrada
    Sempre trate a entrada do usuário e o conteúdo externo como não confiáveis. Filtre o texto antes de enviá-lo ao modelo. Remova ou neutralize frases semelhantes a instruções, texto oculto, marcação e dados codificados. Isso ajuda a evitar que comandos injetados óbvios cheguem ao modelo.
  • Limpar estrutura de immediate e delimitadores
    Separe as instruções do sistema do conteúdo do usuário. Use delimitadores ou tags para marcar textos não confiáveis ​​como dados, não como comandos. Use funções de sistema e de usuário quando suportado pela API. Uma estrutura clara reduz a confusão, mesmo que não seja uma solução completa.
  • Acesso com menor privilégio
    Limite o que o modelo pode fazer. Conceda acesso apenas a ferramentas, arquivos ou APIs estritamente necessários. Exija confirmações ou aprovação humana para ações confidenciais. Isto reduz os danos se ocorrer uma injeção imediata.
  • Monitoramento e filtragem de saída
    Não presuma que as saídas do modelo são seguras. Verifique as respostas em busca de dados confidenciais, segredos ou violações de políticas. Bloqueie ou mascare saídas arriscadas antes que os usuários as vejam. Isso ajuda a conter o impacto de ataques bem-sucedidos.
  • Isolamento imediato e separação de contexto
    Isole conteúdo não confiável da lógica central do sistema. Processe documentos externos em contextos restritos. Rotule claramente o conteúdo como não confiável ao transmiti-lo ao modelo. A compartimentalização limita o quão longe as instruções injetadas podem se espalhar.

Na prática, a defesa contra a injeção imediata requer uma defesa profunda. A combinação de vários controles reduz bastante o risco. Com um bom design e consciência, os sistemas de IA podem permanecer úteis e mais seguros.

Conclusão

A injeção imediata expõe uma fraqueza actual nos modelos de linguagem atuais. Como tratam todas as entradas como texto, os invasores podem inserir comandos ocultos que levam a vazamentos de dados, comportamento inseguro ou decisões erradas. Embora esse risco não possa ser eliminado, ele pode ser reduzido por meio de um design cuidadoso, defesas em camadas e testes constantes. Trate todas as entradas externas como não confiáveis, limite o que o modelo pode fazer e observe atentamente seus resultados. Com as salvaguardas certas, os LLMs podem ser usados ​​com muito mais segurança e responsabilidade.

Perguntas frequentes

Q1. O que é injeção imediata em LLMs?

R. É quando instruções ocultas na entrada do usuário manipulam uma IA para se comportar de maneira não intencional ou prejudicial.

Q2. Por que os ataques de injeção imediata são perigosos?

R. Eles podem vazar dados, ignorar regras de segurança, usar ferramentas indevidamente e produzir resultados enganosos ou prejudiciais.

Q3. Como a injeção imediata pode ser reduzida?

A. Tratando todas as entradas como não confiáveis, limitando as permissões do modelo, estruturando prompts de forma clara e monitorando as saídas.

Olá, sou Janvi, um entusiasta apaixonado pela ciência de dados que atualmente trabalha na Analytics Vidhya. Minha jornada no mundo dos dados começou com uma profunda curiosidade sobre como podemos extrair insights significativos de conjuntos de dados complexos.

Faça login para continuar lendo e desfrutar de conteúdo com curadoria de especialistas.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *