Depuração sistemática para agentes de IA: apresentando a estrutura AgentRx


Depuração sistemática para agentes de IA: apresentando a estrutura AgentRx

De relance

  • Problema: A depuração de falhas de agentes de IA é difícil porque as trajetórias são longas, estocásticas e muitas vezes multiagentes, de modo que a verdadeira causa raiz fica oculta.
  • Solução: AgenteRx (abre em nova aba) identifica o primeira etapa irrecuperável (“falha crítica”) sintetizando restrições guardadas e executáveis a partir de esquemas de ferramentas e políticas de domínio e, em seguida, registrando violações baseadas em evidências passo a passo.
  • Referência + taxonomia: Nós liberamos Referência do AgentRx (abre em nova aba) com 115 trajetórias com falha anotadas manualmente em banco τ, Clarãoe Magentic-Onemais um nove aterrado-taxonomia de falha de categoria.
  • Resultados + lançamento: AgentRx melhora a localização de falhas (+23,6%) e atribuição de causa raiz (+22,9%) sobre linhas de base de solicitação e estamos abrindo o código-fonte da estrutura e do conjunto de dados.

À medida que os agentes de IA fazem a transição de chatbots simples para sistemas autônomos capazes de gerenciar incidentes na nuvem, navegar em interfaces internet complexas e executar fluxos de trabalho de API em várias etapas, surge um novo desafio: transparência.

Quando um humano comete um erro, geralmente podemos rastrear a lógica. Mas quando um agente de IA falha, talvez por alucinar um resultado de ferramenta ou desviar-se de uma política de segurança dez passos numa tarefa de cinquenta passos, identificar exatamente onde e porque é que as coisas correram mal é um processo árduo e guide.

Hoje, temos o prazer de anunciar o lançamento de código aberto do AgenteRx (abre em nova aba)uma estrutura automatizada e independente de domínio projetada para identificar a “etapa de falha crítica” nas trajetórias dos agentes. Juntamente com a estrutura, estamos lançando o Referência do AgentRx (abre em nova aba)um conjunto de dados de 115 trajetórias fracassadas anotadas manualmente para ajudar a comunidade a construir sistemas de agentes mais transparentes e resilientes.

O desafio: por que os agentes de IA são difíceis de depurar

Os agentes modernos de IA são frequentemente:

  • Horizonte longo: Eles realizam dezenas de ações durante longos períodos.
  • Probabilístico: A mesma entrada pode levar a resultados diferentes, dificultando a reprodução.
  • Multiagente: As falhas podem ser “transmitidas” entre agentes, mascarando a causa raiz unique.

As métricas de sucesso tradicionais (como “A tarefa foi concluída?”) não nos dizem o suficiente. Para construir agentes seguros, precisamos identificar o momento exato em que uma trajetória se torna irrecuperável e capturar evidências do que deu errado nessa etapa.

Apresentando AgentRx: uma “prescrição” de diagnóstico automatizado

AgenteRx (abreviação de “Agent Prognosis”) trata a execução do agente como um rastreamento do sistema que precisa de validação. Em vez de depender de um único LLM para “adivinhar” o erro, o AgentRx usa um pipeline estruturado de vários estágios:

  1. Normalização de trajetória: Logs heterogêneos de diferentes domínios são convertidos em uma representação intermediária comum.
  2. Síntese de restrições: A estrutura gera automaticamente restrições executáveis ​​com base em esquemas de ferramentas (por exemplo, “A API deve retornar uma resposta JSON válida”) e políticas de domínio (por exemplo, “Não excluir dados sem a confirmação do usuário”).
  3. Avaliação protegida: O AgentRx avalia as restrições passo a passo, verificando cada restrição somente quando sua condição de guarda aplica e produz um log de validação auditável de violações apoiadas em evidências.
  4. Julgamento baseado em LLM: Finalmente, um juiz LLM usa o registro de validação e uma taxonomia de falha fundamentada para identificar o Etapa de falha crítica– o primeiro erro irrecuperável.
Fluxograma ilustrando um pipeline de atribuição de falha do agente. No canto superior esquerdo, uma caixa azul arredondada chamada “Contexto da Tarefa” contém três entradas empilhadas: “Política de Domínio”, “Esquema de Ferramentas” e “Trajetória”. Uma seta para baixo leva a um grande retângulo amarelo arredondado que representa o pipeline de validação. Dentro desta área, uma caixa verde chamada “Gerador de Restrições” alimenta uma caixa azul chamada “Verificador de Restrições”. À direita deles está uma especificação de restrição semelhante a JSON com campos como assertion_name:
O fluxo de trabalho do AgentRx: Dada uma trajetória falhada, esquemas de ferramentas e política de domínio, o AgentRx sintetiza restrições protegidas, avalia-as passo a passo para produzir um registro de violação auditável com evidências e usa um juiz LLM para prever o etapa de falha crítica e categoria de causa raiz.

Uma nova referência para falhas de agentes

Para avaliar o AgentRx, desenvolvemos um benchmark anotado manualmente que consiste em 115 trajetórias fracassadas em três domínios complexos:

  • Banco τ: Fluxos de trabalho de API estruturados para tarefas de varejo e serviços.
  • Clarão: Gerenciamento de incidentes do mundo actual e solução de problemas do sistema.
  • Magentic-One: Tarefas abertas de internet e arquivos usando um sistema multiagente generalista.

Usando uma abordagem de teoria fundamentada, derivamos nove-taxonomia de falha de categoria que generaliza nesses domínios. Esta taxonomia ajuda os desenvolvedores a distinguir entre um “Falha na adesão ao plano” (onde o agente ignorou seus próprios passos) e um “Invenção de Nova Informação” (alucinação).

Categoria TaxonomiaDescrição
Falha na adesão ao planoIgnorei etapas necessárias/realizei ações extras não planejadas
Invenção de novas informaçõesFatos alterados não baseados na saída do rastreamento/ferramenta
Invocação inválidaChamada de ferramenta malformada/argumentos ausentes/esquema inválido
Interpretação incorreta do resultado da ferramentaLeia a saída da ferramenta incorretamente; agiu com base em suposições erradas
Desalinhamento intenção-planoInterpretou mal as metas/restrições do usuário e planejou incorretamente
Intenção do usuário subespecificadaNão foi possível prosseguir porque as informações necessárias não estavam disponíveis
Intenção não suportadaNenhuma ferramenta disponível pode fazer o que está sendo solicitado
Guarda-corpos acionadosExecução bloqueada por restrições de segurança/acesso
Falha do sistemaFalhas de endpoint de conectividade/ferramenta
Tabela de taxonomia de duas colunas com uma linha de cabeçalho em azul escuro denominada “Categoria de taxonomia” e “Descrição”. As linhas definem nove tipos de falha do agente: Falha de adesão ao plano, Invenção de novas informações, Invocação inválida, Interpretação incorreta da saída da ferramenta, Desalinhamento intenção-plano, Intenção do usuário subespecificada, Intenção não suportada, Guardrails acionados e Falha do sistema. Suas descrições explicam, respectivamente, ações ignoradas ou extras, fatos inventados, chamadas de ferramentas malformadas, leitura incorreta dos resultados da ferramenta, planejamento errado devido a intenção mal compreendida, incapacidade de prosseguir devido à falta de informações, falta de suporte da ferramenta, bloqueio por controles de segurança ou de acesso e falhas de conectividade ou de endpoint.
Análise da densidade de falhas entre domínios. Em sistemas multiagentes como Magentic-Oneas trajetórias geralmente contêm vários erros, mas o AgentRx se concentra na identificação da primeira violação crítica.

Principais resultados

Em nossos experimentos, o AgentRx demonstrou melhorias significativas em relação às linhas de base de prompts baseadas em LLM existentes:

  • +23,6% de melhoria absoluta na precisão da localização de falhas.
  • +22,9% de melhoria na atribuição de causa raiz.

Ao fornecer o “porquê” de uma falha por meio de um log auditável, o AgentRx permite que os desenvolvedores vão além da solicitação de tentativa e erro e em direção à engenharia sistemática de agentes.

Acreditamos que a confiabilidade do agente é um pré-requisito para a implantação no mundo actual. Para apoiar isso, estamos abrindo o código da estrutura AgentRx e do benchmark anotado completo.

Convidamos pesquisadores e desenvolvedores a usar o AgentRx para diagnosticar seus próprios fluxos de trabalho de agentes e contribuir para a crescente biblioteca de restrições de falhas. Juntos, podemos construir agentes de IA que não sejam apenas poderosos, mas também auditáveis ​​e confiáveis.

Agradecimentos

Gostaríamos de agradecer a Avaljot Singh e Suman Nath por contribuir com este projeto.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *