Serviço Amazon OpenSearch capacita fluxos de trabalho de observabilidade para organizações, dando às equipes de Web site Reliability Engineering (SRE) e DevOps um único painel para agregar e analisar dados de telemetria. Durante incidentes, correlacionar sinais e identificar as causas raiz exigem profundo conhecimento em análise de logs e horas de trabalho handbook. A identificação da causa raiz permanece em grande parte handbook. Para muitas equipes, esse é o gargalo que atrasa a recuperação do serviço e queima recursos de engenharia.
Recentemente mostramos como construir um agente de observabilidade usando Serviço Amazon OpenSearch e Base Amazônica para reduzir o tempo médio para resolução (MTTR). Agora, o Amazon OpenSearch Service traz muitas dessas funções para o IU do OpenSearch—não é necessária infraestrutura adicional. Três novos recursos de IA de agência são oferecidos para agilizar e acelerar o MTTR:
- Um Chatbot Agente que pode acessar o contexto e os dados subjacentes que você está analisando, aplicar o raciocínio agente e usar ferramentas para consultar dados e gerar insights em seu nome.
- Um Agente de Investigação que se aprofunda nos dados de sinais com análises baseadas em hipóteses, explicando seu raciocínio em cada etapa.
- Um Memória Agente que oferece suporte a ambos os agentes, portanto, sua precisão e velocidade melhoram à medida que você os utiliza.
Nesta postagem, mostramos como esses recursos funcionam juntos para ajudar os engenheiros a passar do alerta à causa raiz em minutos. Também percorremos um cenário de amostra em que o Agente de Investigação correlaciona automaticamente os dados em vários índices para revelar uma hipótese de causa raiz.
Como os recursos de IA da agência funcionam juntos
Esses recursos de IA são acessíveis em IU do OpenSearch através de um Pergunte à IA botão, conforme mostrado no diagrama a seguir, que fornece um ponto de entrada para o Chatbot Agente.

Chatbot Agente
Para abrir a interface do chatbot, escolha Ask AI.

O chatbot entende o contexto da página atual, portanto entende o que você está vendo antes de fazer uma pergunta. Você pode fazer perguntas sobre seus dados, iniciar uma investigação ou pedir ao chatbot para explicar um conceito. Depois de compreender sua solicitação, o chatbot planeja e usa ferramentas para acessar os dados, incluindo a geração e execução de consultas na página Uncover, e aplica o raciocínio para produzir uma resposta baseada em dados. Você também pode usar o chatbot na página Dashboard, iniciando conversas a partir de uma visualização específica para obter um resumo conforme mostrado na imagem a seguir.

Agente de investigação
Muitos incidentes são complexos demais para serem resolvidos com uma ou duas consultas. Agora você pode contar com a ajuda do agente de investigação para lidar com essas situações complexas. O agente de investigação utiliza o agente planejar-executar-refletirprojetado para resolver tarefas complexas que exigem raciocínio iterativo e execução passo a passo. Ele usa um Massive Language Mannequin (LLM) como planejador e outro LLM como executor. Quando um engenheiro identifica uma observação suspeita, como um aumento na taxa de erro ou uma anomalia de latência, ele pode solicitar que o agente de investigação investigue. Uma das etapas importantes que o agente de investigação realiza é a reavaliação. O agente, após executar cada etapa, reavalia o plano utilizando o planejador e os resultados intermediários. O planejador pode ajustar o plano se necessário ou pular uma etapa ou adicionar etapas dinamicamente com base nessas novas informações. Usando o planejador, o agente gera um relatório de análise de causa raiz liderado pelas hipóteses e recomendações mais prováveis, com rastreamentos completos do agente mostrando cada etapa do raciocínio, todas as descobertas e como elas apoiam as hipóteses finais. Você pode fornecer suggestions, adicionar suas próprias descobertas, iterar no objetivo da investigação e revisar e validar cada etapa do raciocínio do agente. Essa abordagem reflete a forma como os respondedores de incidentes experientes trabalham, mas é concluída automaticamente em minutos. Você também pode usar o comando de barra “/investigar” para iniciar uma investigação diretamente do chatbot, desenvolvendo uma conversa em andamento ou começando com um objetivo de investigação diferente.
Agente em ação
Geração automática de consultas
Considere uma situação em que você é um engenheiro de SRE ou DevOps e recebeu um alerta de que um serviço importante está apresentando latência elevada. Você faz login na interface do OpenSearch, navega até a página Uncover e seleciona o botão Ask AI. Sem nenhum conhecimento na linguagem de consulta Piped Processing Language (PPL), você insere a pergunta “encontrar todas as solicitações com latência superior a ten segundos”. O chatbot entende o contexto e os dados que você está vendo, analisa a solicitação, gera o comando PPL correto e o atualiza na barra de consulta para obter os resultados. E se a consulta apresentar algum erro, o chatbot pode aprender sobre o erro, corrigir-se automaticamente e iterar na consulta para obter os resultados para você.

Investigação e gestão de investigação
Para incidentes complexos que normalmente exigem análise handbook e correlação de vários logs para a possível causa raiz, você pode escolher Iniciar investigação para iniciar o agente de investigação. Você pode fornecer um objetivo para a investigação, juntamente com qualquer contexto ou hipótese que queira instruir a investigação. Por exemplo, “identifique a causa raiz da alta latência generalizada entre os serviços. Use TraceIDs de períodos lentos para correlacionar com entradas de log detalhadas nos índices de log relacionados. Analise serviços, operações, padrões de erro afetados e qualquer infraestrutura ou gargalos em nível de aplicativo sem amostragem”.

O agente, como parte da conversa, se oferecerá para investigar qualquer problema que você esteja tentando depurar.

O agente outline metas para si mesmo, juntamente com quaisquer outras informações relevantes, como índices, intervalo de tempo associado e outros, e pede sua confirmação antes de criar um Caderno para esta investigação. Um Pocket book é uma forma da IU do OpenSearch de desenvolver um relatório rico, dinâmico e colaborativo. Isto ajuda na gestão da investigação e permite uma nova investigação numa knowledge posterior, se necessário.
Após o início da investigação, o agente realizará uma análise rápida por sequência de log e distribuição de dados para detectar valores discrepantes. Em seguida, ele planejará a investigação em uma série de ações e, em seguida, executará cada ação, como consultar um tipo de log e intervalo de tempo específicos. Ele refletirá sobre os resultados a cada passo e iterará no plano até atingir as hipóteses mais prováveis. Os resultados intermediários aparecerão na mesma página em que o agente trabalha para que você acompanhe o raciocínio em tempo actual. Por exemplo, você descobre que o Agente de Investigação mapeou com precisão a topologia do serviço e a usou como uma etapa intermediária importante para a investigação.

À medida que a investigação é concluída, o agente investigador conclui que a hipótese mais provável é um tempo limite de detecção de fraude. A descoberta associada mostra uma entrada de registro do serviço de pagamento: “o valor da moeda é muito grande, aguardando detecção de fraude”. Isto corresponde a um projeto de sistema conhecido, onde grandes transações acionam uma chamada de detecção de fraude que bloqueia a solicitação até que a transação seja pontuada e avaliada. O agente chegou a essa conclusão correlacionando dados em dois índices separados, um índice de métricas onde residiam os dados de duração originais e um índice de log correlacionado onde as entradas do serviço de pagamento foram armazenadas. O agente vinculou esses índices usando IDs de rastreamento, conectando a medição de latência à entrada de log específica que a explicava.

Depois de revisar a hipótese e as evidências de apoio, você considera o resultado razoável e alinhado com seu conhecimento de domínio e experiências anteriores com questões semelhantes. Agora você pode aceitar a hipótese e revisar a topologia do fluxo de solicitação para os rastreamentos afetados que foram fornecidos como parte da investigação da hipótese.
Alternativamente, se você achar que a hipótese inicial não foi útil, você pode revisar a hipótese alternativa na parte inferior do relatório e selecionar qualquer uma das hipóteses alternativas, se houver uma que seja mais precisa. Você também pode acionar uma nova investigação com informações adicionais ou correções de informações anteriores para que o Agente de Investigação possa retrabalhá-la.

Começando
Você pode usar qualquer um dos novos recursos de IA da agência (aplicam-se limites) na IU do OpenSearch sem nenhum custo. Você encontrará os novos recursos de IA de agência prontos para uso em seus aplicativos OpenSearch UI, a menos que você tenha desativado anteriormente os recursos de IA em qualquer domínio do OpenSearch Service em sua conta. Para ativar ou desativar os recursos de IA, você pode navegar até a página de detalhes do aplicativo OpenSearch UI no AWS Administration Console e atualizar as configurações de IA a partir daí. Alternativamente, você também pode usar o registerCapability API para ativar os recursos de IA ou usar o deregisterCapability API para desativá-los. Saiba mais em IA Agentic no Amazon OpenSearch Providers.
O recurso Agentic AI usa a identidade e as permissões dos usuários logados para autorizar o acesso às fontes de dados conectadas. Certifique-se de que seus usuários tenham as permissões necessárias para acessar as fontes de dados. Para obter mais informações, consulte Primeiros passos com a interface do OpenSearch.
Os resultados da investigação são salvos no sistema de metadados da interface OpenSearch e criptografados com uma chave gerenciada pelo serviço. Opcionalmente, você pode configurar uma chave gerenciada pelo cliente para criptografar todos os metadados com sua própria chave. Para obter mais informações, consulte Criptografia e chave gerenciada pelo cliente com OpenSearch UI.
Os recursos de IA são desenvolvidos pelo modelo Claude Sonnet 4.6 no Amazon Bedrock. Saiba mais em Proteção de dados Amazon Bedrock.
Conclusão
Os novos recursos de IA de agente anunciados para o Amazon OpenSearch Service ajudam a reduzir o tempo médio de resolução, fornecendo chatbot de agente com reconhecimento de contexto para assistência, investigações baseadas em hipóteses com complete explicabilidade e memória de agente para consistência de contexto. Com os novos recursos de IA de agência, sua equipe de engenharia pode gastar menos tempo escrevendo consultas e correlacionando sinais e mais tempo agindo em causas raiz confirmadas. Convidamos você a explorar esses recursos e experimentar seus aplicativos hoje mesmo.