Agentic AI Safety: novos riscos e controles na estrutura de segurança de IA do Databricks (DASF v3.0)


Temos o prazer de anunciar o lançamento do Artigo técnico da extensão Agentic AI do Databricks AI Safety Framework (DASF)! Os clientes do Databricks já estão implantando agentes de IA que consultam bancos de dados, chamam APIs externas, executam código e coordenam com outros agentes. Ouvimos constantemente que as equipes responsáveis ​​por essas implantações fazem perguntas difíceis: o que acontece quando a IA pode fazer coisas, não apenas dizer coisas? Por isso prorrogamos o DASF.

Com esta atualização, apresentamos novas orientações para proteger agentes autônomos de IA:

  • 35 novos riscos de segurança de IA agente cobrindo raciocínio do agente, memória e uso de ferramentas
  • 6 novos controles de mitigação incluindo privilégio mínimo, sandbox e supervisão humana
  • Orientação de segurança para Mannequin Context Protocol (MCP) servidores e clientes de ferramentas
  • Cobertura para sistema multiagente riscos e ameaças de comunicação do agente

Juntas, essas adições ajudam as organizações a implantar agentes de IA com segurança, mantendo a governança, a observabilidade e os controles de segurança de defesa em profundidade.

Isto eleva o quadro completo para 97 riscos e 73 controlos. Atualizamos o compêndio DASF (Planilha Google, Excel) para incluir esses novos riscos e controles, mapeando-os de acordo com os padrões do setor para facilitar a operacionalização imediata. Essas adições são catalogadas como DASF v3.0 na coluna “Revisão DASF”.

Agentic AI Safety: novos riscos e controles na estrutura de segurança de IA do Databricks (DASF v3.0)
Fig 1: Os 13 componentes canônicos de um sistema de IA ponta a ponta, com Agentic AI introduzido como o 13º componente.

Riscos de segurança quando os agentes de IA podem realizar ações

Os sistemas tradicionais de IA, como o RAG, operam principalmente em modo somente leitura. Mas os agentes de IA podem realizar ações como consultar bancos de dados, chamar APIs, executar código e interagir com ferramentas externas.

Os agentes trabalham de maneira diferente. Quando um usuário envolve um agente, o modelo inicia um ciclo: ele divide a solicitação em subtarefas, escolhe uma ferramenta (digamos, “Consultar banco de dados de vendas”), executa-a, avalia a saída e resolve se deve chamar uma ferramenta diferente em seguida. Isso continua até que a tarefa seja concluída. O agente toma decisões em tempo actual sobre quais dados acessar e quais ferramentas invocar – decisões que costumavam ser tomadas por humanos ou codificadas na lógica do aplicativo.

Isso cria uma nova classe de risco que chamamos Descoberta e travessia. Um agente projetado para encontrar soluções percorrerá caminhos de dados e interfaces de ferramentas que nunca foram planejados para o usuário solicitante. Não está explorando um bug. Ele está fazendo exatamente o que foi construído para fazer. Mas sem os controles adequados, o usuário herda efetivamente as permissões do agente, e não as suas próprias.

A Trifecta Letal. Pesquisas recentes da indústria, incluindo “Regra de dois agentes”E modelos semelhantes como o de Simon Willison“Trifecta letal“, destaca as condições sob as quais isso se torna perigoso. O perfil de risco aumenta quando três condições estão presentes simultaneamente:

  1. Acesso a sistemas confidenciais ou dados privados: O agente pode recuperar dados privados ou restritos.
  2. Processar entradas não confiáveis: O agente processa dados fora do limite de confiança – solicitações do usuário, websites externos, e-mails recebidos.
  3. Alterar estado ou comunicar externamente: O agente pode modificar o estado por meio de ferramentas ou conexões MCP — enviando e-mails, executando SQL, modificando código.

Com todos os três implementados, uma injeção imediata indireta incorporada em dados não confiáveis ​​pode sequestrar todo o conjunto de capacidades do agente, transformando-o em um “representante confuso” que executa ações autorizadas com intenções maliciosas. Remova qualquer perna única reduzindo o escopo das permissões, adicionando um ponto de verificação humano, validando a intenção antes da seleção da ferramenta e interrompendo a cadeia de ataque.

Como a extensão é organizada

Os 35 novos riscos e 6 controles estão organizados em torno de três subcomponentes que mapeiam como os agentes realmente funcionam:

13A: O Núcleo do Agente (cérebro e memória)

Esses riscos têm como alvo o ciclo de raciocínio do agente. Envenenamento de Memória (Risco 13.1) introduz contexto falso que altera decisões atuais ou futuras. Quebra de Intenção e Manipulação de Metas (Risco 13.6) coage o agente a se desviar de seu objetivo. E como os agentes operam em loops multivoltas, Ataques de Alucinação em Cascata (Risco 13,5) pode transformar um pequeno erro nas iterações em uma ação destrutiva.

13B: Riscos do servidor MCP (a interface da ferramenta)

Os agentes interagem com sistemas externos por meio de ferramentas, cada vez mais padronizadas through Mannequin Context Protocol (MCP). No lado do servidor, os invasores podem implantar Envenenamento por Ferramenta (Risco 13.18) — injetar comportamento malicioso nas definições de ferramentas — ou explorar Injeção imediata (risco 13.16) nas descrições das ferramentas para contornar os controles de segurança.

13C: Riscos do cliente MCP (a camada de conexão)

No lado do cliente, se o agente se conectar a um Servidor Malicioso (Risco 13.26) ou não validar as respostas do servidor, corre o risco Execução de código do lado do cliente (Risco 13.32) ou Vazamento de dados (Risco 13.30). À medida que a adoção do MCP cresce, proteger o limite cliente-servidor é tão importante quanto proteger o raciocínio do agente.

Dinâmica interagente

Os agentes se comunicarão cada vez mais com outros agentes. Isso cria riscos de Envenenamento de Comunicação do Agente (Risco 13.12) e Agentes desonestos em sistemas multiagentes (Risco 13.13) — agentes que operam fora dos limites do monitoramento, um problema que aumenta com a escala.

Controles para proteger agentes de IA e sistemas autônomos

O DASF sempre se preocupou com a defesa em profundidade. Mas quando um sistema de IA pode agir, os controles de acesso somente leitura não são suficientes. Os novos controles abordam isso diretamente:

  • Privilégio mínimo para ferramentas (DASF 5, DASF 57, DASF 64): Os agentes precisam de permissões granulares voltadas para suas tarefas imediatas, limitando o raio da explosão da mesma forma que o RBAC e o ABAC limitam o de um ser humano. Só porque um agente pode ligar para a ferramenta de métricas de RH não significa que deveria ao responder a uma consulta de vendas.
  • Supervisão humana (DASF 66): Para ações de alto risco, exija verificação humana antes da execução da ferramenta. O design do controle leva em conta o cansaço da aprovação – se você sobrecarregar o revisor humano, você criou uma nova vulnerabilidade, e não resolveu uma.
  • Sandbox e isolamento (DASF 34, DASF 62): O código gerado pelo agente é executado em ambientes efêmeros e isolados. Se um agente decidir escrever e executar um script, essa execução não deverá ter acesso ao sistema mais amplo e às conexões de saída para destinos desconhecidos.
  • Gateway e guarda-corpos de IA (DASF 54): Os agentes precisam de proteção contra cenários em que um agente está sendo manipulado para revelar dados que não deveria. As interações dos agentes por meio de gateway e proteções, como monitoramento, filtragem de segurança e detecção de PII, precisam ser aplicadas. Essas proteções podem ser aplicadas à entrada ou à saída de um agente (ou a ambos). Também é igualmente importante monitorar o que realmente está sendo devolvido pelo agente.
  • Observabilidade do pensamento (DASF 65): O registro padrão informa o que aconteceu. Capturas de rastreamento agente por que — as etapas de planejamento, o raciocínio de seleção de ferramentas, a cadeia de pensamento que levou a uma ação. Sem isso, não é possível auditar as decisões de um agente ou detectar quando seu raciocínio foi comprometido.

Para clientes do Databricks, o compêndio mapeia esses controles para os recursos da plataforma, incluindo Governança do Catálogo do Unity para acesso aos dados do agente, Estrutura de blocos de agente, Grades de proteção do AI Gatewaye Pesquisa vetorial configurações de segurança.

Construído com a comunidade

Esta extensão reflete a contribuição de revisores e colaboradores do Databricks e da comunidade de segurança, incluindo equipes da Atlassian, Experian e ComplyLeft. Também nos baseamos fortemente no trabalho do MITRE ATLAS, OWASP, NIST e Cloud Safety Alliance – o compêndio atualizado mapeia todos os 97 riscos e 73 controles de acordo com esses padrões do setor.

Comece

Baixe o Artigo técnico da extensão DASF Agentic AI para o tratamento completo de todos os 35 novos riscos de IA agente e 6 novos controles, e pegue o compêndio atualizado (Planilha Google, Excel) que agora mapeia os riscos e controles dos agentes juntamente com o DASF authentic. Use esses recursos para:

  1. Avaliar suas arquiteturas de agente atuais em relação ao modelo de risco de IA do agente.
  2. Mapa seus ecossistemas de ferramentas — incluindo servidores e clientes MCP — aos vetores de ameaças identificados.
  3. Implementar os controles recomendados para garantir que seus agentes operem dentro de limites governados e seguros.

Para um contexto mais profundo, leia o white paper completo da DASF e explorar o Documentação do Agent Bricks Framework para ver como esses controles funcionam na plataforma.

Entre em contato com sua equipe de conta do Databricks ou envie um e-mail para (e-mail protegido) com suggestions – esta estrutura pertence tanto à comunidade quanto a nós.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *