Otimizando o gerenciamento de incidentes com AIOPs usando o sistema Triangle


Neste weblog, mergulharemos em quão grandes modelos de idiomas, IA generativa e o sistema Triangle nos ajudam a alavancar os loops de automação e suggestions para um gerenciamento de incidentes mais eficiente.

A alta qualidade do serviço é essential para a confiabilidade da plataforma do Azure e suas centenas de serviços. O monitoramento continuamente do serviço de plataforma Well being permite que nossas equipes detectem e mitigem prontamente incidentes que possam afetar nossos clientes. Além dos gatilhos automatizados em nosso sistema que reagem quando os limites são violados e incidentes de relatório de clientes, empregamos operações baseadas em inteligência synthetic (AIOPs) para detectar anomalias. O gerenciamento de incidentes é um processo complexo e pode ser um desafio gerenciar a escala do Azure, e as equipes envolvidas para resolver um incidente de maneira eficiente e eficaz com o rico conhecimento de domínio necessário. Pedi à nossa equipe do Azure Core Insights que compartilhasse como eles empregam o sistema Triângulo usando o AIOPS para conduzir um tempo mais rápido para resolver para beneficiar a experiência do usuário.

– Marque Russinovich, Azure CTO na Microsoft

Otimizando o gerenciamento de incidentes

Os incidentes são gerenciados por indivíduos responsáveis ​​designados (DRIS), encarregados de investigar incidentes de entrada para gerenciar como e quem precisa resolver o incidente. À medida que nosso portfólio de produtos se expande, esse processo se torna cada vez mais complexo à medida que o incidente registrado em um serviço específico pode não ser a causa raiz e pode resultar de qualquer número de serviços dependentes. Com centenas de serviços no Azure, é quase impossível para qualquer pessoa ter conhecimento de domínio em todas as áreas. Isso apresenta um desafio à eficiência do diagnóstico handbook, resultando em tarefas redundantes e tempo prolongado para mitigar (TTM). Neste weblog, mergulharemos em quão grandes modelos de idiomas, IA generativa e o sistema Triangle nos ajudam a alavancar os loops de automação e suggestions para um gerenciamento de incidentes mais eficiente.

Os agentes de IA estão se tornando mais maduros devido à melhoria da capacidade de raciocínio de grandes modelos de linguagem (LLMs), permitindo que eles articulem todas as etapas envolvidas em seus processos de pensamento. Tradicionalmente, os LLMs têm sido usados ​​para tarefas generativas, como o resumo, sem alavancar seus recursos de raciocínio para a tomada de decisões do mundo actual. Vimos um caso de uso para esse recurso e construímos agentes de IA para tomar as decisões iniciais de atribuição de incidentes, economizando tempo e reduzindo a redundância. Esses agentes usam LLMs como cérebro, permitindo que eles pensem, raciocinem e utilizem ferramentas para executar ações de forma independente. Com melhores modelos de raciocínio, os agentes da IA ​​agora podem planejar com mais eficácia, superando as limitações anteriores em sua capacidade de “pensar” de forma abrangente. Essa abordagem não apenas melhorará a eficiência, mas também aumentará a experiência geral do usuário, garantindo uma resolução mais rápida dos incidentes.

Apresentando o sistema de triângulo

O sistema de triângulo é uma estrutura que emprega agentes de IA para triagem incidentes. Cada agente de IA representa os engenheiros de uma equipe específica e é codificado com o conhecimento do domínio da equipe para triagem. Possui duas funções avançadas: triagem native e triagem world.

Sistema de triagem native

O sistema de triagem native é uma estrutura de agente único que usa um único agente para representar cada equipe. Esses agentes únicos fornecem uma decisão binária de aceitar ou rejeitar um incidente recebido em nome de sua equipe, com base em incidentes históricos e guias de solução de problemas existentes (TSGs). Os TSGs são um conjunto de diretrizes que os engenheiros documentam para solucionar problemas de problemas comuns. Esses TSGs são usados ​​para treinar o agente para aceitar ou rejeitar incidentes e fornecer o raciocínio por trás da decisão. Além disso, o agente pode recomendar a equipe para a qual o incidente deve ser transferido, com base no TSGS.

Como mostrado na Figura 1, o sistema de triagem native começa quando um incidente entra na fila de incidente de uma equipe de serviço. Com base no treinamento de incidentes históricos e TSGs, o único agente emprega incorporadores generativos de transformador pré -traçado (GPT) para capturar os significados semânticos das palavras e sentenças. A destilação semântica envolve a extração de informações semânticas do incidente que está intimamente relacionado ao incidente que está sendo triado. O único agente decidirá aceitar ou rejeitar o incidente. Se aceito, o agente fornecerá o raciocínio e o incidente será entregue a um engenheiro para revisar. Se rejeitado, o agente o enviará de volta para a equipe anterior, transferir para uma equipe indicada pelo TSG ou a manterá na fila para um engenheiro resolver.

Um diagrama de uma equipe

Figura 1: Fluxo de trabalho do sistema de triagem native

O sistema de triagem native está em produção no Azure desde meados de 2024. Em janeiro de 2025, 6 equipes estão em produção com mais de 15 equipes no processo de integração. Os resultados iniciais são promissores, com agentes atingindo 90% de precisão e uma equipe viu uma redução no TTM de 38%, reduzindo significativamente o impacto para os clientes.

Sistema de triagem world

O sistema de triagem world visa rotear o incidente para a equipe correta. O sistema coordena em todos os agentes únicos por meio de um orquestrador multi-agente para identificar a equipe para a qual o incidente deve ser roteado. Conforme mostrado na Figura 2, o orquestrador de vários agentes seleciona candidatos de equipe adequados para o incidente de entrada, negocia com cada agente para encontrar a equipe correta, reduzindo ainda mais o TTM. Essa é uma abordagem semelhante aos pacientes que entram na sala de emergência, onde a enfermeira avalia brevemente os sintomas e direciona cada paciente ao seu especialista. À medida que desenvolvemos ainda mais o sistema de triagem world, os agentes continuarão a expandir seus conhecimentos e melhorar suas habilidades de tomada de decisão, melhorando bastante não apenas a experiência do usuário, mitigando os problemas dos clientes rapidamente, mas também melhorando a produtividade do desenvolvedor, reduzindo a labuta handbook.

Um diagrama de uma equipe

Figura 2: Fluxo de trabalho do sistema de triagem world

Esperando ansiosamente

Planejamos expandir a cobertura adicionando mais agentes de diferentes equipes que ampliarão a base de conhecimento para melhorar o sistema. Algumas das maneiras pelas quais planejamos fazer isso incluem:

  1. Estender o sistema de triagem de incidentes para funcionar para todas as equipes: Ao estender o sistema a todas as equipes, pretendemos aprimorar o conhecimento geral do sistema, permitindo lidar com uma ampla gama de problemas. Criar uma abordagem unificada para o gerenciamento de incidentes levaria a um manuseio mais eficiente e consistente de incidentes.
  2. Otimize o LLMS para identificar e recomendar rapidamente soluções, correlacionando os registros de erros com os segmentos de código específicos responsáveis ​​pelo problema: A otimização do LLMS para identificar, correlacionar e recomendar rapidamente as soluções acelerará significativamente o processo de solução de problemas. Ele permite que o sistema forneça recomendações precisas, reduzindo o tempo que os engenheiros gastam em depuração e levando a uma resolução mais rápida dos problemas para os clientes.
  3. Expanda os problemas conhecidos automaticamente mitigando: A implementação de um sistema automatizado para mitigar problemas conhecidos reduzirá a TTM, melhorando a experiência do cliente. Isso também reduzirá o número de incidentes que exigem intervenção handbook, permitindo que os engenheiros se concentrem em encerrar os clientes.

Introduzimos o AIOPS pela primeira vez como parte desta série de blogs em Fevereiro de 2020 Onde destacamos como a integração da IA ​​nos processos de plataforma em nuvem e DevOps do Azure aprimora a qualidade, a resiliência e a eficiência do serviço por meio de soluções-chave, incluindo previsão de falhas de {hardware}, serviços de pré-provisionamento e gerenciamento de incidentes baseado em IA. A AIOPS continua a desempenhar um papel crítico hoje para prever, proteger e mitigar falhas e impactos na plataforma do Azure e melhorar a experiência do cliente.

Ao automatizar esses processos, nossas equipes têm o poder de identificar e abordar rapidamente problemas, garantindo uma experiência de serviço de alta qualidade para nossos clientes. As organizações que desejam aprimorar sua própria confiabilidade de serviço e produtividade do desenvolvedor podem fazê -lo integrando os agentes de IA em seus processos de gerenciamento de incidentes projetados no sistema Triângulo. Leia o Triângulo: capacitar a triagem de incidentes com multi-llm-agentes Artigo da Microsoft Analysis.


Obrigado à equipe do Azure Core e M365 por suas contribuições para este weblog: Alison Yao, cientista de dados; Madhura Vaidya, engenheiro de software program; Chrysmine Wong, gerente de programas técnicos; Ze Li, gerente de cientista de dados principal; Sarvani Sathish Kumar, gerente de programa técnico principal; Murali Chintalapati, gerente de engenharia de software program em grupo de parceiros; Minghua MA, pesquisador sênior; e Chetan Bansal, gerente de pesquisa principal da SR.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *