
De relance
- Problema: A depuração de falhas de agentes de IA é difícil porque as trajetórias são longas, estocásticas e muitas vezes multiagentes, de modo que a verdadeira causa raiz fica oculta.
- Solução: AgenteRx (abre em nova aba) identifica o primeira etapa irrecuperável (“falha crítica”) sintetizando restrições guardadas e executáveis a partir de esquemas de ferramentas e políticas de domínio e, em seguida, registrando violações baseadas em evidências passo a passo.
- Referência + taxonomia: Nós liberamos Referência do AgentRx (abre em nova aba) com 115 trajetórias com falha anotadas manualmente em banco τ, Clarãoe Magentic-Onemais um nove aterrado-taxonomia de falha de categoria.
- Resultados + lançamento: AgentRx melhora a localização de falhas (+23,6%) e atribuição de causa raiz (+22,9%) sobre linhas de base de solicitação e estamos abrindo o código-fonte da estrutura e do conjunto de dados.
À medida que os agentes de IA fazem a transição de chatbots simples para sistemas autônomos capazes de gerenciar incidentes na nuvem, navegar em interfaces internet complexas e executar fluxos de trabalho de API em várias etapas, surge um novo desafio: transparência.
Quando um humano comete um erro, geralmente podemos rastrear a lógica. Mas quando um agente de IA falha, talvez por alucinar um resultado de ferramenta ou desviar-se de uma política de segurança dez passos numa tarefa de cinquenta passos, identificar exatamente onde e porque é que as coisas correram mal é um processo árduo e guide.
Hoje, temos o prazer de anunciar o lançamento de código aberto do AgenteRx (abre em nova aba)uma estrutura automatizada e independente de domínio projetada para identificar a “etapa de falha crítica” nas trajetórias dos agentes. Juntamente com a estrutura, estamos lançando o Referência do AgentRx (abre em nova aba)um conjunto de dados de 115 trajetórias fracassadas anotadas manualmente para ajudar a comunidade a construir sistemas de agentes mais transparentes e resilientes.
O desafio: por que os agentes de IA são difíceis de depurar
Os agentes modernos de IA são frequentemente:
- Horizonte longo: Eles realizam dezenas de ações durante longos períodos.
- Probabilístico: A mesma entrada pode levar a resultados diferentes, dificultando a reprodução.
- Multiagente: As falhas podem ser “transmitidas” entre agentes, mascarando a causa raiz unique.
As métricas de sucesso tradicionais (como “A tarefa foi concluída?”) não nos dizem o suficiente. Para construir agentes seguros, precisamos identificar o momento exato em que uma trajetória se torna irrecuperável e capturar evidências do que deu errado nessa etapa.
Apresentando AgentRx: uma “prescrição” de diagnóstico automatizado
AgenteRx (abreviação de “Agent Prognosis”) trata a execução do agente como um rastreamento do sistema que precisa de validação. Em vez de depender de um único LLM para “adivinhar” o erro, o AgentRx usa um pipeline estruturado de vários estágios:
- Normalização de trajetória: Logs heterogêneos de diferentes domínios são convertidos em uma representação intermediária comum.
- Síntese de restrições: A estrutura gera automaticamente restrições executáveis com base em esquemas de ferramentas (por exemplo, “A API deve retornar uma resposta JSON válida”) e políticas de domínio (por exemplo, “Não excluir dados sem a confirmação do usuário”).
- Avaliação protegida: O AgentRx avalia as restrições passo a passo, verificando cada restrição somente quando sua condição de guarda aplica e produz um log de validação auditável de violações apoiadas em evidências.
- Julgamento baseado em LLM: Finalmente, um juiz LLM usa o registro de validação e uma taxonomia de falha fundamentada para identificar o Etapa de falha crítica– o primeiro erro irrecuperável.

Uma nova referência para falhas de agentes
Para avaliar o AgentRx, desenvolvemos um benchmark anotado manualmente que consiste em 115 trajetórias fracassadas em três domínios complexos:
- Banco τ: Fluxos de trabalho de API estruturados para tarefas de varejo e serviços.
- Clarão: Gerenciamento de incidentes do mundo actual e solução de problemas do sistema.
- Magentic-One: Tarefas abertas de internet e arquivos usando um sistema multiagente generalista.
Usando uma abordagem de teoria fundamentada, derivamos nove-taxonomia de falha de categoria que generaliza nesses domínios. Esta taxonomia ajuda os desenvolvedores a distinguir entre um “Falha na adesão ao plano” (onde o agente ignorou seus próprios passos) e um “Invenção de Nova Informação” (alucinação).
| Categoria Taxonomia | Descrição |
|---|---|
| Falha na adesão ao plano | Ignorei etapas necessárias/realizei ações extras não planejadas |
| Invenção de novas informações | Fatos alterados não baseados na saída do rastreamento/ferramenta |
| Invocação inválida | Chamada de ferramenta malformada/argumentos ausentes/esquema inválido |
| Interpretação incorreta do resultado da ferramenta | Leia a saída da ferramenta incorretamente; agiu com base em suposições erradas |
| Desalinhamento intenção-plano | Interpretou mal as metas/restrições do usuário e planejou incorretamente |
| Intenção do usuário subespecificada | Não foi possível prosseguir porque as informações necessárias não estavam disponíveis |
| Intenção não suportada | Nenhuma ferramenta disponível pode fazer o que está sendo solicitado |
| Guarda-corpos acionados | Execução bloqueada por restrições de segurança/acesso |
| Falha do sistema | Falhas de endpoint de conectividade/ferramenta |

Principais resultados
Em nossos experimentos, o AgentRx demonstrou melhorias significativas em relação às linhas de base de prompts baseadas em LLM existentes:
- +23,6% de melhoria absoluta na precisão da localização de falhas.
- +22,9% de melhoria na atribuição de causa raiz.
Ao fornecer o “porquê” de uma falha por meio de um log auditável, o AgentRx permite que os desenvolvedores vão além da solicitação de tentativa e erro e em direção à engenharia sistemática de agentes.
Acreditamos que a confiabilidade do agente é um pré-requisito para a implantação no mundo actual. Para apoiar isso, estamos abrindo o código da estrutura AgentRx e do benchmark anotado completo.
Convidamos pesquisadores e desenvolvedores a usar o AgentRx para diagnosticar seus próprios fluxos de trabalho de agentes e contribuir para a crescente biblioteca de restrições de falhas. Juntos, podemos construir agentes de IA que não sejam apenas poderosos, mas também auditáveis e confiáveis.
Agradecimentos
Gostaríamos de agradecer a Avaljot Singh e Suman Nath por contribuir com este projeto.