A observabilidade da observabilidade – O’Reilly



A observabilidade da observabilidade – O’Reilly

Apesar da promessa do AIOPS, o sonho de ambientes de TI totalmente automatizados e de auto-cicatrização permanece indescritível. As ferramentas generativas de IA podem ser a solução que finalmente abstraça o suficiente da carga de trabalho para chegar lá. No entanto, a realidade de hoje é muito mais complexa. Recente da empresa de monitoramento de desempenho da web Relatório SRE 2025 descobriu isso pela primeira vez e apesar – ou talvez por causa – a crescente dependência de ferramentas de IA, “o ônus das tarefas operacionais cresceu. ”

É verdade, ai pode Fluxos de trabalho espinhosos suavesmas isso pode ter efeitos inesperados. Por exemplo, seu sistema pode usar padrões aprendidos para suprimir automaticamente alertas, mas isso pode fazer com que suas equipes percaem os novos eventos. E a IA não consertará magicamente o que está desatualizado ou quebrado: depois de implementar uma solução de IA, “os problemas geralmente permanecem porque a mudança acontece com o tempo, não imediatamente”. Mehdi Daoudi, de Catchpoint, explicou Briou. Isso ocorre em parte porque “fazer correlações entre (os) tipos de dados diferentes que vivem em diferentes lojas de dados são propensos a erros e ineficientes”, mesmo com a assistência de ferramentas movidas a IA, escreva maiores de caridade, Liz Fong-Jones e George Miranda em seus Próxima edição de Engenharia de observabilidade. E isso é antes de levar em consideração a preocupação mais ampla de que a dependência excessiva de sistemas de IA e agentes de IA levará ao erosão generalizada da experiência humana.

É seguro dizer que o AIOPS é uma faca de dois gumes, cortando processos complexos com facilidade enquanto introduzia novas formas de complexidade oculta no backswing. Assim como a IA generativa como um todo, a utilidade de uma solução mais frequentemente depende de sua confiabilidade. Sem perception sobre como As ferramentas de IA estão chegando às decisões que tomam, você não pode ter certeza de que essas decisões são confiáveis. Michelle Bonat, diretora da AI da AI Squared, chama isso de “o paradoxo da observabilidade da IA. ” Em suma, à medida que delegamos a observabilidade em sistemas inteligentes, reduzimos nossa capacidade de entender suas ações – ou nossos sistemas de monitoramento.

Por que a “observabilidade da observabilidade” é importante

As equipes de Ops estão depositando mais sua confiança em alertas automatizados, análise de causa raiz acionada pela IA e insights preditivos, mas essa confiança é construída em terreno instável. Já existem preocupações sobre Quão eficazes os benchmarks atuais de AI são na avaliação de modelose referências para agentes de IA são “significativamente mais complexo”(E, portanto, menos confiável). E a observabilidade apresenta suas próprias complicações específicas de tarefas:

A integridade de seus dados e pipeline de dados; Você não pode resolver os problemas que não vê.

Drift e preconceito de modelo: Os modelos de IA tendem a degradar ou “desviar” com o tempo, devido a mudanças no comportamento ou dados do sistema, novas versões de aplicativos ou discrepâncias crescentes entre métricas de proxy e resultados reais. E o viés é um problema frequente para os modelos generativos de IA. Isso é particularmente irritante para sistemas de observabilidade, onde o diagnóstico de problemas adequadamente exige análise precisa. Você não pode confiar na saída de um modelo de IA que desenvolve vieses ou sinais de misinterpreta a partir dos dados, mas porque LLM em plataformas de observabilidade Não posso explicar com frequência como eles chegam às suas conclusõesesses problemas podem ser difíceis de identificar sem metaobservabilidade.

Saúde e desempenho da plataforma: As plataformas de observabilidade são sistemas distribuídos complexos – eles têm interrupções, degradação do desempenho e contenção de recursos como qualquer outro. Manter sua fonte principal de verdade saudável e executar de maneira confiável é essential. Mas como você saberá que suas ferramentas de monitoramento estão funcionando corretamente sem observabilidade na própria camada de observabilidade?

Sua pilha de observabilidade é um sistema crítico. Trate dessa maneira.

A solução é simples o suficiente: aplique os mesmos princípios de monitoramento às suas ferramentas de observabilidade que você faz nos seus aplicativos de produção. Claro, o diabo está nos detalhes.

Métricas, troncos e traços: Os dados de telemetria fornecem informações sobre a saúde e a atividade do seu sistema. Você deve estar monitorando a latência da plataforma, as taxas de ingestão de dados, o desempenho da consulta e as taxas de erro da API, bem como as métricas focadas na IA, como Utilização de recursos de agentes e colecionadores, tempo para primeiros token, latência entre lácia e tokens por segundo se aplicável. A coleta de logs de seus componentes de observabilidade ajudará você a entender o comportamento interno deles. E você pode identificar gargalos rastreando solicitações por meio do seu pipeline de observabilidade.

Validação de dados e verificações de qualidade: A padronização da coleta de dados de observabilidade e a consolidação de seus fluxos de dados oferece às partes interessadas uma visão unificada da saúde do sistema-essencial para entender e confiar em decisões orientadas pela IA. Opentelemetria é a Plataforma particularmente boa Para observabilidade, pois oferece portabilidade para seus dados, evita o bloqueio do fornecedor e promove instrumentação consistente em diversos serviços; Também permite uma melhor explicação, vinculando a telemetria aos pontos de origem da decisão. Mas certifique -se de implementar verificações automatizadas sobre a qualidade e a integridade dos dados que fluem para suas ferramentas de observabilidade (número de nomes de serviços exclusivos, cardinalidades métricas esperadas, desvio de registro de knowledge e hora, and so forth.), bem como alertas para anomalias na coleta de dados em si (por exemplo, queda repentina no quantity de log de um serviço). Como os modelos de IA, sua configuração desviará com o tempo (um problema Menos de um terço das organizações estão monitorando proativamente para). Como observa Ido Neeman, da Firefly, em A nova pilha“IAC parcial (infraestrutura como código) adoção misturada com cliques sistemáticos basicamente Garantia a divergência de configuração. ”

Monitoramento e explicação de modelos: Austin Parker, de Honeycomb, argumenta que o A velocidade com que as ferramentas de observabilidade baseadas em LLM podem fornecer análises é o verdadeiro divisor de águasmesmo que “eles possam estar errados uma dúzia de vezes antes de acertarem”. (Ele estará discutindo como a observabilidade pode corresponder ao ritmo da IA com mais detalhes no próximo Infraestrutura e Ops SuperStream.) Essa velocidade é um ativo – mas a precisão não pode ser assumida. Veja os resultados com ceticismo. Não confie apenas na saída da IA; Referência cruzada com sinais mais simples e não desconta a intuição humana. Melhor ainda, exige informações sobre o comportamento e o desempenho do modelo, como precisão, falsos positivos/negativos e importância.1 É o que o Frost Financial institution Ciso Eddie Contreras chama “garantia de qualidade em escala. ” Sem isso, seu sistema de observabilidade da IA será opaco – e você não saberá quando está te desviar.

O papel em evolução do engenheiro

A IA está adicionando novas camadas de complexidade e criticidade ao seu OPS, mas isso não diminui o papel do engenheiro de software program. Ben Lorica apontou que a verdade “” chata “sobre a IA bem -sucedida” é que “os vencedores.. Será definido não apenas pelo brilho de seus modelos, mas pelo eficiência silenciosa e resiliência da infraestrutura que os alimenta. ” Considerando esta “verdade” de outro ângulo, Série CISO O anfitrião David Spark pergunta: “Estamos criando uma corrida armamentista AI-On-AI quando O que realmente precisamos é de disciplina básica de engenhariamadeira, limites e insights legíveis por humanos? ”

Boas práticas de engenharia sempre superarão “usando a IA para resolver seus problemas de IA”. Como Yevgeniy Brikman aponta astutamente Fundamentos de DevOps e entrega de software program“As prioridades mais importantes são tipicamente segurança, confiabilidade, repetibilidade e resiliência. Infelizmente, essas são precisamente as áreas fracas de Genai”. É por isso que a silenciosa confiabilidade Lorica e Spark Champion exige supervisão contínua e intencional – mesmo as ferramentas que afirmam automatizar a própria supervisão.2 Os engenheiros agora são os árbitros de confiança e confiabilidade, e o futuro pertence àqueles que podem observar não apenas o aplicativo, mas também as ferramentas que confiamos para assisti -lo.


Comece a construir metaobservabilidade em seus sistemas com O’Reilly Em 21 de agosto, junte-se ao apresentador Sam Newman e uma linha All-Star de profissionais de observabilidade para o Infraestrutura e OPS superestream em operações e observabilidade orientadas pela IA. Você obterá estratégias acionáveis que você pode usar para aprimorar suas funções tradicionais de TI, incluindo a automação de tarefas cruciais, como gerenciamento de incidentes e monitoramento de desempenho do sistema. É gratuito para membros de O’Reilly. Salve seu assento aqui.

Não é um membro? Inscreva-se para um teste gratuito de 10 dias Para participar – e confira todos os outros grandes recursos sobre O’Reilly.


Notas de rodapé

  1. Para uma visão detalhada do que é necessário, consulte o capítulo de Chip Huyen no Avaliando sistemas de IA em Engenharia de IA e Abi Aryan’s Visão geral do monitoramento, privacidade e segurança em Llmops. Aryan também compartilhará estratégias de observabilidade em cada estágio do oleoduto LLM no próximo Infraestrutura e Ops SuperStream.
  2. Apenas onde os humanos pertencem ao loop é uma pergunta em aberto: Honeycomb Sre Fred Hebert compartilhou uma lista útil de perguntas para ajudá -lo a descobrir isso para suas circunstâncias específicas.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *