Grandes modelos de linguagem como ChatGPT, Claude são feitos para seguir as instruções do usuário. Mas seguir indiscriminadamente as instruções do usuário cria uma séria fraqueza. Os invasores podem inserir comandos ocultos para manipular o comportamento desses sistemas, uma técnica chamada injeção de immediate, muito parecida com a injeção de SQL em bancos de dados. Isto pode levar a resultados prejudiciais ou enganosos se não for manuseado com cuidado. Neste artigo, explicamos o que é a injeção imediata, por que é importante e como reduzir seus riscos.
O que é uma injeção imediata?
A injeção imediata é uma maneira de manipular um IA ocultando instruções dentro da entrada common. Os invasores inserem comandos enganosos no texto que um modelo recebe para que ele se comporte de uma maneira que nunca deveria, às vezes produzindo resultados prejudiciais ou enganosos.

LLMs processam tudo como um bloco de texto, para que não separem naturalmente as instruções confiáveis do sistema das entradas não confiáveis do usuário. Isso os torna vulneráveis quando o conteúdo do usuário é escrito como uma instrução. Por exemplo, um sistema instruído a resumir uma fatura pode ser induzido a aprovar um pagamento.

- Os invasores disfarçam comandos como texto regular
- O modelo os segue como se fossem instruções reais
- Isso pode substituir o propósito authentic do sistema
É por isso que é chamado injeção imediata.
Tipos de ataques de injeção imediata
| Aspecto | Injeção direta de immediate | Injeção de immediate indireto |
| Como funciona o ataque | Atacante envia instruções diretamente para a IA | Atacante esconde instruções em conteúdo externo |
| Interação do invasor | Interação direta com o modelo | Nenhuma interação direta com o modelo |
| Onde o immediate aparece | No chat ou entrada da API | Em arquivos, páginas da net, e-mails ou documentos |
| Visibilidade | Claramente visível no immediate | Muitas vezes escondido ou invisível para os humanos |
| Tempo | Executado imediatamente na mesma sessão | Acionado posteriormente quando o conteúdo é processado |
| Instrução de exemplo | “Ignore todas as instruções anteriores e faça X” | Texto oculto dizendo à IA para ignorar as regras |
| Técnicas comuns | Solicitações de jailbreak, comandos de dramatização | HTML oculto, comentários, texto branco sobre branco |
| Dificuldade de detecção | Mais fácil de detectar | Mais difícil de detectar |
| Casos de uso típicos | Jailbreaks iniciais do ChatGPT como DAN | Páginas da net ou documentos envenenados |
| Fraqueza central explorada | O modelo confia na entrada do usuário como instruções | O modelo confia em dados externos como instruções |
Ambos os tipos de ataque exploram a mesma falha central. O modelo não consegue distinguir com segurança as instruções confiáveis das injetadas.

Riscos da injeção imediata
A injeção imediata, se não for considerada durante o desenvolvimento do modelo, pode levar a:
- Acesso não autorizado e vazamento de dados: Os invasores podem enganar o modelo para que revele informações confidenciais ou internas, incluindo prompts do sistema, dados do usuário ou instruções ocultas, como o immediate Sydney do Bing, que podem então ser usados para encontrar novas vulnerabilidades.
- Bypass de segurança e manipulação de comportamento: Os prompts injetados podem forçar o modelo a ignorar as regras, muitas vezes por meio de encenação ou autoridade falsa, levando a jailbreaks que produzem conteúdo violento, ilegal ou perigoso.
- Abuso de ferramentas e capacidades do sistema: Quando os modelos podem usar APIs ou ferramentas, a injeção imediata pode desencadear ações como enviar e-mails, acessar arquivos ou fazer transações, permitindo que invasores roubem dados ou utilizem indevidamente o sistema.
- Violações de privacidade e confidencialidade: Os invasores podem exigir histórico de bate-papo ou contexto armazenado, fazendo com que o modelo vaze informações privadas do usuário e potencialmente viole as leis de privacidade.
- Saídas distorcidas ou enganosas: Alguns ataques alteram sutilmente as respostas, criando resumos tendenciosos, recomendações inseguras, mensagens de phishing ou desinformação.
Exemplos do mundo actual e estudos de caso
Exemplos práticos demonstram que a injeção oportuna não é apenas uma ameaça hipotética. Esses ataques comprometeram os sistemas populares de IA e geraram vulnerabilidades reais de segurança e proteção.
- Bate-papo do Bing “Sidney”vazamento imediato (2023)
O Bing Chat usou um immediate de sistema oculto chamado Sydney. Ao dizer ao bot para ignorar as instruções anteriores, os pesquisadores conseguiram fazê-lo revelar suas regras internas. Isso demonstrou que a injeção de immediate pode vazar prompts no nível do sistema e revelar como o modelo foi projetado para se comportar. - “Exploração da vovó”E avisos de jailbreak
Os usuários descobriram que a dramatização emocional poderia contornar os filtros de segurança. Ao pedir à IA que fingisse ser uma avó contando histórias proibidas, ela produziu conteúdo que normalmente bloquearia. Os invasores usaram truques semelhantes para fazer com que os chatbots do governo gerassem códigos prejudiciais, mostrando como a engenharia social pode derrotar as salvaguardas. - Prompts ocultos em currículos e documentos
Alguns candidatos escondeu texto invisível em currículos para manipular sistemas de triagem de IA. A IA leu as instruções ocultas e classificou os currículos de forma mais favorável, embora os revisores humanos não tenham notado diferença. Isto provou que a injeção indireta imediata poderia influenciar silenciosamente decisões automatizadas. - Código Claude AI injeção de bloco (2025)
Uma vulnerabilidade no Claude da Anthropic tratava instruções ocultas em comentários de código como comandos do sistema, permitindo que invasores anulassem regras de segurança por meio de entrada estruturada e provando que a injeção imediata não se limita ao texto regular.
Todos estes fatores juntos demonstram que a injeção precoce pode resultar em segredos vazados, controles de proteção comprometidos, julgamento comprometido e resultados inseguros. Eles salientam que qualquer sistema de IA exposto a informações não confiáveis seria vulnerável caso não houvesse defesas adequadas.
Como se defender contra a injeção imediata
As injeções imediatas são difíceis de prevenir totalmente. No entanto, seus riscos podem ser reduzidos com um projeto cuidadoso do sistema. As defesas eficazes concentram-se no controle de entradas, na limitação do poder do modelo e na adição de camadas de segurança. Nenhuma solução é suficiente. Uma abordagem em camadas funciona melhor.
- Sanitização e validação de entrada
Sempre trate a entrada do usuário e o conteúdo externo como não confiáveis. Filtre o texto antes de enviá-lo ao modelo. Remova ou neutralize frases semelhantes a instruções, texto oculto, marcação e dados codificados. Isso ajuda a evitar que comandos injetados óbvios cheguem ao modelo. - Limpar estrutura de immediate e delimitadores
Separe as instruções do sistema do conteúdo do usuário. Use delimitadores ou tags para marcar textos não confiáveis como dados, não como comandos. Use funções de sistema e de usuário quando suportado pela API. Uma estrutura clara reduz a confusão, mesmo que não seja uma solução completa. - Acesso com menor privilégio
Limite o que o modelo pode fazer. Conceda acesso apenas a ferramentas, arquivos ou APIs estritamente necessários. Exija confirmações ou aprovação humana para ações confidenciais. Isto reduz os danos se ocorrer uma injeção imediata. - Monitoramento e filtragem de saída
Não presuma que as saídas do modelo são seguras. Verifique as respostas em busca de dados confidenciais, segredos ou violações de políticas. Bloqueie ou mascare saídas arriscadas antes que os usuários as vejam. Isso ajuda a conter o impacto de ataques bem-sucedidos. - Isolamento imediato e separação de contexto
Isole conteúdo não confiável da lógica central do sistema. Processe documentos externos em contextos restritos. Rotule claramente o conteúdo como não confiável ao transmiti-lo ao modelo. A compartimentalização limita o quão longe as instruções injetadas podem se espalhar.
Na prática, a defesa contra a injeção imediata requer uma defesa profunda. A combinação de vários controles reduz bastante o risco. Com um bom design e consciência, os sistemas de IA podem permanecer úteis e mais seguros.
Conclusão
A injeção imediata expõe uma fraqueza actual nos modelos de linguagem atuais. Como tratam todas as entradas como texto, os invasores podem inserir comandos ocultos que levam a vazamentos de dados, comportamento inseguro ou decisões erradas. Embora esse risco não possa ser eliminado, ele pode ser reduzido por meio de um design cuidadoso, defesas em camadas e testes constantes. Trate todas as entradas externas como não confiáveis, limite o que o modelo pode fazer e observe atentamente seus resultados. Com as salvaguardas certas, os LLMs podem ser usados com muito mais segurança e responsabilidade.
Perguntas frequentes
R. É quando instruções ocultas na entrada do usuário manipulam uma IA para se comportar de maneira não intencional ou prejudicial.
R. Eles podem vazar dados, ignorar regras de segurança, usar ferramentas indevidamente e produzir resultados enganosos ou prejudiciais.
A. Tratando todas as entradas como não confiáveis, limitando as permissões do modelo, estruturando prompts de forma clara e monitorando as saídas.
Faça login para continuar lendo e desfrutar de conteúdo com curadoria de especialistas.