3 conclusões da equipe vermelha de 100 produtos generativos de IA


A equipe vermelha de IA da Microsoft está entusiasmada em compartilhar nosso whitepaper, “Lições do Crimson Teaming 100 produtos de IA generativos.”

A equipe vermelha de IA foi formada em 2018 para abordar o cenário crescente de riscos de segurança e proteção de IA. Desde então, expandimos significativamente o escopo e a escala do nosso trabalho. Somos uma das primeiras equipes vermelhas do setor a cobrir segurança e IA responsável, e a equipe vermelha se tornou uma parte basic da abordagem da Microsoft para o desenvolvimento de produtos de IA generativa. A equipe vermelha é o primeiro passo na identificação de possíveis danos e é seguida por iniciativas importantes na empresa para medir, gerenciar e governar o risco de IA para nossos clientes. No ano passado, também anunciamos PirIT (The Python Threat Identification Device for generative AI), um package de ferramentas de código aberto para ajudar os pesquisadores a identificar vulnerabilidades em seus próprios sistemas de IA.

Gráfico de pizza mostrando o detalhamento percentual dos produtos testados pela equipe vermelha de IA da Microsoft (AIRT). Em outubro de 2024, conduzimos mais de 80 operações abrangendo mais de 100 produtos.
Gráfico de pizza mostrando o detalhamento percentual dos produtos testados pela equipe vermelha de IA da Microsoft. Em outubro de 2024, reunimos mais de 100 produtos de IA generativos.

Com foco em nossa missão expandida, já reunimos mais de 100 produtos generativos de IA. O whitepaper que estamos lançando agora fornece mais detalhes sobre nossa abordagem à equipe vermelha de IA e inclui os seguintes destaques:

  • Nossa ontologia de equipe vermelha de IA, que usamos para modelar os principais componentes de um ataque cibernético, incluindo atores adversários ou benignos, TTPs (Táticas, Técnicas e Procedimentos), fraquezas do sistema e impactos posteriores. Esta ontologia fornece uma maneira coesa de interpretar e divulgar uma ampla gama de descobertas de segurança e proteção.
  • Oito lições principais aprendidas com nossa experiência reunindo mais de 100 produtos generativos de IA. Essas lições são voltadas para profissionais de segurança que buscam identificar riscos em seus próprios sistemas de IA e esclarecem como alinhar os esforços da equipe vermelha com os danos potenciais no mundo actual.
  • Cinco estudos de caso das nossas operações, que destacam a ampla gama de vulnerabilidades que procuramos, incluindo segurança tradicional, IA responsável e danos psicossociais. Cada estudo de caso demonstra como nossa ontologia é usada para capturar os principais componentes de um ataque ou vulnerabilidade de sistema.
Dois colegas colaborando em uma mesa.

Lições do Crimson Teaming 100 produtos de IA generativos

Descubra mais sobre nossa abordagem para pink teaming de IA.

A equipe vermelha de IA da Microsoft aborda uma infinidade de cenários

Ao longo dos anos, Equipe vermelha de IA abordou uma ampla variedade de cenários que outras organizações provavelmente também encontraram. Nós nos concentramos nas vulnerabilidades com maior probabilidade de causar danos no mundo actual, e nosso whitepaper compartilha estudos de caso de nossas operações que destacam como fizemos isso em quatro cenários, incluindo segurança, IA responsável, capacidades perigosas (como a capacidade de um modelo de gerar ameaças perigosas). conteúdo) e danos psicossociais. Como resultado, somos capazes de reconhecer uma variedade de ameaças cibernéticas potenciais e nos adaptar rapidamente ao enfrentar novas ameaças.

Esta missão proporcionou à nossa equipe vermelha uma ampla experiência para lidar habilmente com os riscos, independentemente de:

  • Tipo de sistema, incluindo Microsoft Copilot, modelos incorporados em sistemas e modelos de código aberto.
  • Modalidade, seja texto para texto, texto para imagem ou texto para vídeo.
  • Tipo de usuário – o risco do usuário corporativo, por exemplo, é diferente dos riscos do consumidor e requer uma abordagem exclusiva de pink teaming. Públicos de nicho, como para um setor específico como o de saúde, também merecem uma abordagem diferenciada.

As três principais conclusões do whitepaper

A equipe vermelha de IA é uma prática para testar a segurança de sistemas generativos de IA. Simplificando, “quebramos” a tecnologia para que outros possam reconstruí-la com mais força. Anos de pink teaming nos deram uma visão inestimável sobre as estratégias mais eficazes. Ao refletir sobre as oito lições discutidas no whitepaper, podemos destilar três conclusões principais que os líderes empresariais devem saber.

Conclusão 1: Os sistemas de IA generativos amplificam os riscos de segurança existentes e introduzem novos

A integração de modelos generativos de IA em aplicações modernas introduziu novos vetores de ataques cibernéticos. No entanto, muitas discussões em torno da segurança da IA ​​ignoram as vulnerabilidades existentes. As equipes vermelhas de IA devem prestar atenção aos vetores de ataques cibernéticos, antigos e novos.

  • Riscos de segurança existentes: Os riscos de segurança de aplicativos geralmente resultam de práticas inadequadas de engenharia de segurança, incluindo dependências desatualizadas, tratamento inadequado de erros, credenciais na origem, falta de higienização de entrada e saída e criptografia de pacotes insegura. Um dos estudos de caso em nosso whitepaper descreve como um componente FFmpeg desatualizado em um aplicativo de IA de processamento de vídeo introduziu uma vulnerabilidade de segurança conhecida chamada falsificação de solicitação do lado do servidor (SSRF), que poderia permitir que um adversário aumentasse seus privilégios de sistema.
Fluxograma mostrando uma vulnerabilidade SSRF no aplicativo GenAI do estudo de caso da equipe vermelha.
Ilustração da vulnerabilidade SSRF no aplicativo de IA generativa de processamento de vídeo.
  • Fraquezas no nível do modelo: Os modelos de IA expandiram a superfície de ataques cibernéticos ao introduzir novas vulnerabilidades. As injeções imediatas, por exemplo, exploram o fato de que os modelos de IA muitas vezes têm dificuldade para distinguir entre instruções no nível do sistema e dados do usuário. Nosso whitepaper inclui um estudo de caso da equipe vermelha sobre como usamos injeções imediatas para enganar um modelo de linguagem de visão.

Dica do time vermelho: As equipes vermelhas de IA devem estar atentas aos novos vetores de ataques cibernéticos e, ao mesmo tempo, permanecer vigilantes aos riscos de segurança existentes. As melhores práticas de segurança de IA devem incluir higiene cibernética básica.

Conclusão 2: Os seres humanos estão no centro da melhoria e da segurança da IA

Embora as ferramentas de automação sejam úteis para criar prompts, orquestrar ataques cibernéticos e pontuar respostas, o pink teaming não pode ser totalmente automatizado. A equipe vermelha de IA depende muito da experiência humana.

Os humanos são importantes por vários motivos, incluindo:

Dica do time vermelho: Adote ferramentas como o PyRIT para ampliar as operações, mas mantenha os humanos no circuito vermelho da equipe para obter o maior sucesso na identificação de vulnerabilidades impactantes de segurança e proteção da IA.

Conclusão 3: A defesa em profundidade é basic para manter os sistemas de IA seguros

Numerosas mitigações foram desenvolvidas para lidar com os riscos de segurança colocados pelos sistemas de IA. No entanto, é importante lembrar que as mitigações não eliminam totalmente o risco. Em última análise, a equipe vermelha de IA é um processo contínuo que deve se adaptar ao cenário de risco em rápida evolução e ter como objetivo aumentar tanto quanto possível o custo de um ataque bem-sucedido a um sistema.

Dica do time vermelho: Atualize continuamente as suas práticas para ter em conta novos danos, make the most of ciclos de interrupção e reparação para tornar os sistemas de IA tão seguros e protegidos quanto possível e invista em técnicas robustas de medição e mitigação.

Aumente sua experiência em equipe vermelha de IA

O whitepaper “Classes From Crimson Teaming 100 Generative AI Merchandise” inclui nossa ontologia de AI pink staff, lições adicionais aprendidas e cinco estudos de caso de nossas operações. Esperamos que você considere o artigo e a ontologia úteis na organização de seus próprios exercícios de pink teaming de IA e no desenvolvimento de estudos de caso adicionais, aproveitando PirITnossa estrutura de automação de código aberto.

Juntas, a comunidade de cibersegurança pode aperfeiçoar as suas abordagens e partilhar as melhores práticas para enfrentar eficazmente os desafios futuros. Baixe nosso whitepaper sobre equipe vermelha para ler mais sobre o que aprendemos. À medida que avançamos em nossa jornada de aprendizado contínuo, gostaríamos de receber seus comentários e ouvir sobre suas próprias experiências de equipe vermelha de IA.

Saiba mais com Segurança da Microsoft

Para saber mais sobre as soluções de segurança da Microsoft, visite nosso website. Marque o Weblog de segurança para acompanhar nossa cobertura especializada em questões de segurança. Além disso, siga-nos no LinkedIn (Segurança da Microsoft) e X (@MSFTSegurança) para obter as últimas notícias e atualizações sobre segurança cibernética.


¹ Pós-treinamento de segurança Phi-3: Alinhando modelos de linguagem com um ciclo de “quebra-conserto”



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *