Os modelos de IA tornaram-se cada vez mais democratizados e a proliferação e adoção de modelos de peso aberto contribuíram significativamente para esta realidade. Os modelos abertos fornecem aos pesquisadores, desenvolvedores e entusiastas de IA uma base sólida para casos de uso e aplicações ilimitadas. Em agosto de 2025, os principais modelos dos EUA, China e Europa tinham cerca de 400 milhões de downloads totais em HuggingFace. Com uma abundância de opções no ecossistema de modelos de peso aberto e a capacidade de ajustar modelos abertos para aplicações específicas, é mais importante do que nunca entender exatamente o que você está obtendo com um modelo de peso aberto, incluindo sua postura de segurança.
Os pesquisadores de segurança da Cisco AI Protection conduziram uma avaliação comparativa de segurança de IA de oito grandes modelos de linguagem (LLMs) de peso aberto, revelando profunda suscetibilidade à manipulação adversária, especialmente em cenários de vários turnos, onde as taxas de sucesso foram observadas como sendo 2x a 10x maiores do que ataques de turno único. Usando a plataforma AI Validation da Cisco, que realiza testes automatizados de vulnerabilidade algorítmica, avaliamos modelos do Alibaba (Qwen3-32B), DeepSeek(v3.1), Google (Gemma 3-1B-IT), meta (Lhama 3.3-70B-Instrução),Microsoft (Fi-4), Mistral (Grande-2 também conhecido como Massive-Instruct-2047), OpenAI (GPT-OSS-20b) e Zhipu AI (GLM 4.5-Ar).
Abaixo, forneceremos uma visão geral de nossa avaliação de segurança de modelo, revisaremos as descobertas e compartilharemos o relatório completo que fornece um detalhamento completo de nossa análise.
Avaliando a segurança do modelo de código aberto
Para este relatório, usamos a Validação de IA, que faz parte de nossa solução completa de Defesa de IA que realiza avaliações algorítmicas automatizadas das vulnerabilidades de segurança e proteção de um modelo. Este relatório destaca falhas específicas, como a suscetibilidade a jailbreaks. rastreado por MITRE ATLAS e OWASP como AML.T0054 e LLM01:2025 respectivamente. A avaliação de risco foi realizada como um trabalho de caixa preta, onde os detalhes da arquitetura do aplicativo, do design e das proteções existentes, se houver, não foram divulgados antes do teste.
Em todos os modelos, os ataques de jailbreak multivoltas, nos quais aproveitamos vários métodos para direcionar um modelo para gerar conteúdo não permitido, provaram ser altamente eficazes, com taxas de sucesso de ataque atingindo 92,78%. O aumento acentuado entre a vulnerabilidade de turno único e de turno múltiplo sublinha a falta de mecanismos dentro dos modelos para manter e impor barreiras de segurança e proteção em diálogos mais longos.
Estas descobertas confirmam que os ataques multivoltas continuam a ser um padrão dominante e não resolvido na segurança da IA. Isto poderá traduzir-se em ameaças do mundo actual, incluindo riscos de exfiltração de dados sensíveis, manipulação de conteúdos que conduza ao comprometimento da integridade de dados e informações, violações éticas através de resultados tendenciosos e até mesmo perturbações operacionais em sistemas integrados, como chatbots ou ferramentas de apoio à decisão. Por exemplo, em ambientes empresariais, tais vulnerabilidades poderiam permitir o acesso não autorizado a informações proprietárias, enquanto em aplicações públicas, poderiam facilitar a propagação de conteúdos nocivos em grande escala.
Inferimos, a partir de nossas avaliações e análises de relatórios técnicos de laboratórios de IA, que as estratégias de alinhamento e a proveniência do modelo podem influenciar a resiliência dos modelos contra jailbreaks. Por exemplo, modelos que se concentram em capacidades (por exemplo, Llama) demonstraram as maiores lacunas multi-voltas, com Meta explicando que os desenvolvedores estão “no banco do motorista para adaptar a segurança ao seu caso de uso” no pós-treinamento. Modelos que se concentraram fortemente no alinhamento (por exemplo, Google Gemma-3-1B-IT) demonstraram um perfil mais equilibrado entre estratégias de turno único e multi-turno implantadas contra ele, indicando um foco em “protocolos de segurança rigorosos” e “baixo nível de risco”Por uso indevido.
Modelos abertos, como os que testamos, fornecem uma base poderosa que, quando combinada com técnicas maliciosas de ajuste fino, pode potencialmente introduzir aplicações perigosas de IA que contornam as medidas padrão de segurança e proteção. Não desencorajamos o investimento e o desenvolvimento contínuos em modelos de código aberto e de peso aberto. Em vez disso, incentivamos simultaneamente os laboratórios de IA que lançam modelos abertos a tomar medidas para evitar que os usuários ajustem a segurança, ao mesmo tempo que incentivamos as organizações a entender o que os laboratórios de IA priorizam no desenvolvimento de seus modelos (como linhas de base de segurança fortes versus linhas de base que priorizam a capacidade) antes de escolherem um modelo para ajuste fino e implantação.
Para combater o risco de adoção ou implantação de modelos inseguros ou inseguros, as organizações devem considerar a adoção de soluções avançadas de segurança de IA. Isso inclui treinamento contraditório para reforçar a robustez do modelo, defesas especializadas contra explorações multivoltas (por exemplo, proteções sensíveis ao contexto), monitoramento em tempo actual para interações anômalas e exercícios regulares de purple teaming. Ao priorizar estas medidas, as partes interessadas podem transformar modelos de peso aberto de ativos propensos a responsabilidades em componentes seguros e confiáveis para ambientes de produção, promovendo a inovação sem comprometer a segurança.


Análise comparativa de vulnerabilidade mostrando taxas de sucesso de ataques em modelos testados para cenários de turno único e de vários turnos.
Descobertas
À medida que analisamos os dados que surgiram da nossa avaliação desses modelos de código aberto, procuramos os principais padrões de ameaças, comportamentos de modelos e implicações para implantações no mundo actual. As principais conclusões incluíram:
- Ataques multiturno continuam sendo o principal modo de falha: Todos os modelos demonstraram alta suscetibilidade a ataques multivoltas, com taxas de sucesso variando de 25,86% (Google Gemma-3-1B-IT) a 92,78% (Mistral Massive-2), representando um aumento de até 10x em relação às linhas de base de volta única. Veja a Tabela 1 abaixo:


- A abordagem de alinhamento gera lacunas de segurança: As lacunas de segurança foram predominantemente positivas, indicando riscos elevados de múltiplas voltas (por exemplo, +73,48% para Alibaba Qwen3-32B e +70% para Mistral Massive-2 e Meta Llama 3.3-70B-Instruct). Os modelos que exibiram lacunas menores podem exibir uma defesa de giro único mais fraca, mas uma defesa de giro múltiplo mais forte. Inferimos que as lacunas de segurança decorrem da abordagem de alinhamento aos modelos de peso aberto: laboratórios como meta e Alibaba focado em recursos e aplicativos transferidos para desenvolvedores para adicionar políticas de segurança e proteção adicionais, enquanto laboratório com uma postura de segurança e proteção mais forte, como Google e OpenAI exibiram lacunas mais conservadoras entre estratégias de turno único e multiturno. Independentemente disso, dada a variação das taxas de sucesso das técnicas de ataque de turno único e múltiplo entre os modelos, os usuários finais devem considerar os riscos de forma holística em todas as técnicas de ataque.
- Padrões de categorias de ameaças e concentração de subameaças: Courses de ameaças de alto risco, como manipulação, desinformação e geração de código malicioso, exibiram taxas de sucesso consistentemente elevadas, com fraquezas específicas do modelo; ataques multiturno revelam variações de categoria e perfis de vulnerabilidade claros. Consulte a Tabela 2 abaixo para saber o desempenho de diferentes modelos em relação a várias técnicas multivoltas. As 15 principais subameaças demonstraram taxas de sucesso extremamente altas e vale a pena priorizar para mitigação defensiva.


- Técnicas e estratégias de ataque: Certas técnicas e estratégias multi-voltas alcançaram alto sucesso e a resistência de cada modelo variou; a seleção de diferentes técnicas e estratégias de ataque tem o potencial de influenciar criticamente os resultados.
- Implicações gerais: A superioridade de 2 a ten vezes dos ataques multivoltas contra as grades de proteção do modelo exige melhorias imediatas de segurança para mitigar os riscos de produção.
Os resultados em relação ao GPT-OSS-20b, por exemplo, alinharam-se estreitamente com as próprias avaliações da OpenAI: as taxas gerais de sucesso de ataque para o modelo foram relativamente baixas, mas as taxas foram aproximadamente consistentes com a seção “avaliação de jailbreak” do Papel cartão modelo GPT-OSS onde as recusas variaram entre 0,960 e 0,982 para GPT-OSS-20b. Este resultado sublinha a contínua susceptibilidade dos modelos de fronteira a ataques adversários.
O objetivo de um laboratório de IA no desenvolvimento de um modelo específico também pode influenciar os resultados da avaliação. Por exemplo, o ajuste de instruções do Qwen tende a priorizar a utilidade e a amplitude, que os invasores podem explorar reformulando seus prompts como “para pesquisa”, “cenários fictícios”, portanto, uma taxa de sucesso de ataque multiturno mais alta. Meta, por outro lado, tende a enviar pesos abertos com a expectativa de que os desenvolvedores adicionem suas próprias camadas de moderação e segurança. Embora o alinhamento da linha de base seja bom (indicado por uma taxa modesta de turno único), sem quaisquer proteções adicionais de segurança (por exemplo, manutenção de políticas de segurança em conversas ou sessões ou moderação baseada em ferramentas, como filtragem e modelos de recusa), os jailbreaks de vários turnos também podem aumentar rapidamente. Laboratórios centrados em peso aberto, como Mistral e Meta, geralmente fornecem bases que priorizam a capacidade com recursos de segurança integrados mais leves. Eles são atraentes para pesquisa e personalização, mas empurram as defesas para o implementador. Os usuários finais que procuram modelos de pesos abertos para implantar devem considerar quais aspectos de um modelo eles priorizam (alinhamento de segurança e proteção versus pesos abertos de alta capacidade com menos salvaguardas).
Os desenvolvedores também podem ajustar os modelos de peso aberto para serem mais robustos a jailbreaks e outros ataques adversários, embora também estejamos cientes de que atores nefastos podem, por outro lado, ajustar os modelos de peso aberto para fins maliciosos. Alguns desenvolvedores de modelos, como Google, OpenAI, meta, Microsoftobservaram em seus relatórios técnicos e cartões modelo que tomaram medidas para reduzir a probabilidade de ajustes maliciosos, enquanto outros, como Alibaba, DeepSeeke Mistralnão reconheceram segurança ou proteção em seus relatórios técnicos. Zhipu avaliado GLM-4.5 em relação aos padrões de segurança e observou um forte desempenho em algumas categorias, ao mesmo tempo que reconheceu “espaço para melhorias” em outras. Como resultado de padrões inconsistentes de segurança e proteção em todo o cenário do modelo de peso aberto, existem riscos de segurança, operacionais, técnicos e éticos que as partes interessadas (desde usuários finais a desenvolvedores, até organizações e empresas que adotam esse uso) devem considerar ao adotar ou usar esses modelos de peso aberto. A ênfase na segurança e proteção, desde o desenvolvimento até à avaliação e à libertação, deve continuar a ser uma prioridade máxima entre os criadores e profissionais de IA.
Para ver nossa metodologia de teste, descobertas e a avaliação completa de segurança desses modelos de código aberto, leia nosso relatório aqui.
