Avaliando o risco de segurança na Deepseek


Esta pesquisa authentic é o resultado de uma estreita colaboração entre pesquisadores de segurança da IA ​​da Sturdy Intelligence, agora parte da Cisco e da Universidade da Pensilvânia, incluindo Yaron Singer, Amin Karbasi, Paul Kassianik, Mahdi Sabbaghi, Hamed Hassani e George Pappas.

Sumário executivo

Este artigo investiga vulnerabilidades em Deepseek R1um novo modelo de raciocínio de fronteira da startup de IA chinesa Deepseek. Ele ganhou atenção international por seus recursos avançados de raciocínio e método de treinamento econômico. Enquanto seu desempenho rivaliza com modelos de última geração como Openai O1nossa avaliação de segurança revela Falhas de segurança críticas.

Usando Técnicas algorítmicas de jailbreaknossa equipe aplicou um Metodologia de ataque automatizado no Deepseek R1, que o testou contra 50 instruções aleatórias do DataSet Harmbench. Estes cobertos Seis categorias de comportamentos prejudiciais incluindo crime cibernético, desinformação, atividades ilegais e danos gerais.

Os resultados foram alarmantes: Deepseek R1 exibiu uma taxa de sucesso de ataque de 100%o que significa que não bloqueou um único immediate prejudicial. Isso contrasta fortemente com outros modelos principais, que demonstraram pelo menos resistência parcial.

Nossas descobertas sugerem que os métodos de treinamento econômicos de Deepseek, incluindo Aprendizagem de reforçoAssim, Auto-avaliação da cadeia de pensamentoe destilação pode ter comprometido seus mecanismos de segurança. Comparado a outros modelos de fronteira, o Deepseek R1 não possui corrimãos robustos, tornando -o altamente suscetível a Algorítmico jailbreak e uso indevido em potencial.

Vamos fornecer um Relatório de acompanhamento detalhando os avanços em Jailbrinho algorítmico de modelos de raciocínio. Nossa pesquisa ressalta a necessidade urgente de Avaliação de segurança rigorosa No desenvolvimento da IA, para garantir que os avanços em eficiência e raciocínio não tenham o custo da segurança. Também reafirma a importância das empresas usando Terceiros guardraxos que fornecem proteções de segurança e segurança consistentes e confiáveis ​​nos aplicativos de IA.

Introdução

As manchetes na última semana foram dominadas em grande parte por histórias em torno do Deepseek R1, um novo modelo de raciocínio criado pela startup de IA chinesa Deepseek. Esse modelo e seu desempenho impressionante nos testes de referência capturaram a atenção não apenas da comunidade de IA, mas do mundo inteiro.

Já vimos uma abundância de cobertura da mídia dissecando a Deepseek R1 e especulando suas implicações para a inovação international da IA. No entanto, não houve muita discussão sobre a segurança desse modelo. É por isso que decidimos aplicar uma metodologia semelhante ao nosso Defesa da AI Teste de vulnerabilidade algorítmica no Deepseek R1 para entender melhor seu perfil de segurança e segurança.

Neste weblog, responderemos a três perguntas principais: por que o Deepseek R1 é um modelo importante? Por que devemos entender as vulnerabilidades do Deepseek R1? Finalmente, quão seguro é o Deepseek R1 em comparação com outros modelos de fronteira?

O que é Deepseek R1 e por que é um modelo importante?

Os atuais modelos de IA de última geração exigem centenas de milhões de dólares e recursos computacionais maciços para construir e treinar, apesar dos avanços na relação custo-benefício e computação feitos nos últimos anos. Com seus modelos, a Deepseek mostrou resultados comparáveis ​​aos principais modelos de fronteira com uma suposta fração dos recursos.

Os lançamentos recentes da Deepseek-particularmente Deepseek R1-Zero (supostamente treinados puramente com a aprendizagem de reforço) e o Deepseek R1 (refinando o r1-zero usando aprendizado supervisionado)-demonstram uma forte ênfase no desenvolvimento de LLMs com capacidades avançadas de raciocínio. Sua pesquisa Mostra o desempenho comparável aos modelos OpenAI O1 enquanto supera o Claude 3,5 sonetos e o chatgpt-4o em tarefas como matemática, codificação e raciocínio científico. Mais notavelmente, o Deepseek R1 foi treinado por aproximadamente US $ 6 milhões, uma mera fração dos bilhões gastos por empresas como o OpenAI.

A diferença declarada no treinamento de modelos Deepseek pode ser resumida pelos três princípios a seguir:

  • Cadeia de pensamento permite que o modelo evite seu próprio desempenho
  • A aprendizagem de reforço ajuda o modelo a guiar
  • A destilação permite o desenvolvimento de modelos menores (1,5 bilhão a 70 bilhões de parâmetros) de um modelo grande authentic (671 bilhões de parâmetros) para uma acessibilidade mais ampla

O pedido da cadeia de pensamentos permite que os modelos de IA dividam problemas complexos em etapas menores, semelhante à maneira como os humanos mostram seu trabalho ao resolver problemas de matemática. Essa abordagem se combina com o “colapso de arranhões”, onde os modelos podem trabalhar através de cálculos intermediários separadamente de sua resposta last. Se o modelo cometer um erro durante esse processo, ele poderá voltar para uma etapa correta anterior e tentar uma abordagem diferente.

Além disso, as técnicas de aprendizado de reforço recompensam os modelos de recompensa por produzir etapas intermediárias precisas, não apenas as respostas finais corretas. Esses métodos melhoraram drasticamente o desempenho da IA ​​em problemas complexos que requerem raciocínio detalhado.

A destilação é uma técnica para criar modelos menores e eficientes que mantêm a maioria dos recursos de modelos maiores. Funciona usando um grande modelo de “professor” para treinar um modelo menor de “aluno”. Através desse processo, o modelo do aluno aprende a replicar as habilidades de solução de problemas do professor para tarefas específicas, enquanto exigem menos recursos computacionais.

A Deepseek combinou a modelagem da cadeia de pensamentos e a modelagem de recompensa com destilação para criar modelos que superem significativamente os modelos tradicionais de linguagem tradicional (LLMS) em tarefas de raciocínio, mantendo a alta eficiência operacional.

Por que devemos entender as vulnerabilidades Deepseek?

O paradigma por trás do Deepseek é novo. Desde a introdução do modelo O1 da OpenAI, os provedores de modelos se concentraram na construção de modelos com raciocínio. Desde que O1, os LLMs conseguiram cumprir as tarefas de maneira adaptativa por meio da interação contínua com o usuário. No entanto, a equipe por trás do Deepseek R1 demonstrou alto desempenho sem depender de conjuntos de dados caros e marcados com humanos ou recursos computacionais maciços.

Não há dúvida de que o desempenho do modelo de Deepseek causou um impacto estranho na paisagem da IA. Em vez de nos concentrar apenas no desempenho, devemos entender se o Deepseek e seu novo paradigma de raciocínio têm trocas significativas quando se trata de segurança e proteção.

Quão seguro é Deepseek em comparação com outros modelos de fronteira?

Metodologia

Realizamos testes de segurança e proteção contra vários modelos populares de fronteira, bem como dois modelos de raciocínio: Deepseek R1 e Openai O1-Preview.

Para avaliar esses modelos, executamos um algoritmo automático de inquietação em 50 prompts uniformemente amostrados da referência in style do Harmbench. O Harmbench A Benchmark possui um complete de 400 comportamentos em 7 categorias de danos, incluindo crime cibernético, desinformação, atividades ilegais e danos gerais.

Nossa principal métrica é a taxa de sucesso de ataque (ASR), que mede a porcentagem de comportamentos para os quais foram encontrados jailbreaks. Esta é uma métrica padrão usada em cenários de jailbreak e que adotamos para esta avaliação.

Amostramos os modelos de destino à temperatura 0: o cenário mais conservador. Isso concede reprodutibilidade e fidelidade aos nossos ataques gerados.

Utilizamos métodos automáticos para detecção de recusa e supervisão humana para verificar os jailbreaks.

Resultados

O Deepseek R1 foi supostamente treinado com uma fração dos orçamentos que outros provedores de modelos de fronteira gastam no desenvolvimento de seus modelos. No entanto, tem um custo diferente: segurança.

Nossa equipe de pesquisa conseguiu o Jailbreak Deepseek R1 com uma taxa de sucesso de ataque de 100%. Isso significa que não houve um único aviso do conjunto de Harmbench que não obteve uma resposta afirmativa da Deepseek R1. Isso contrasta com outros modelos de fronteira, como o O1, que bloqueia a maioria dos ataques adversários com seus modelo de proteção.

O gráfico abaixo mostra nossos resultados gerais.

Avaliando o risco de segurança na Deepseek

A tabela abaixo fornece uma melhor visão de como cada modelo respondeu a instruções em várias categorias de danos.

Tabela mostrando a porcentagem de jailbreak por modelo e categoria. O Deepseek possui uma porcentagem de 100% de jailbreak em todas as categorias, que incluem química biológica, intrusão de crimes cibernéticos, assédio por desinformação prejudicial, prejudicial, ilegal e desinformação.

Uma nota sobre o jailbreak de algorítmico e o raciocínio: Essa análise foi realizada pela equipe avançada de pesquisa da IA ​​da Sturdy Intelligence, agora parte da Cisco, em colaboração com pesquisadores da Universidade da Pensilvânia. O custo complete dessa avaliação foi inferior a US $ 50, usando uma metodologia de validação totalmente algorítmica semelhante à que utilizamos em nosso produto de defesa de IA. Além disso, essa abordagem algorítmica é aplicada em um modelo de raciocínio que excede os recursos apresentados anteriormente em nosso Árvore do ataque com poda (torneira) pesquisa no ano passado. Em um submit de acompanhamento, discutiremos essa nova capacidade de modelos de raciocínio algorítmicos com jailbreak com mais detalhes.


Adoraríamos ouvir o que você pensa. Faça uma pergunta, comente abaixo e mantenha -se conectado com a Cisco Safe no Social!

Alças sociais de segurança da Cisco

Instagram
Fb
Twitter
LinkedIn

Compartilhar:



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *