
A AWS respondeu rapidamente, revertendo as alterações e isolando os componentes afetados. As comunicações do AWS Help, embora oportunas, eram previsivelmente técnicas e careciam de detalhes à medida que a crise avançava. Problemas com escalonamento automático, balanceamento de carga e roteamento de tráfego causaram efeitos downstream em serviços aparentemente não relacionados. É um lembrete de que, apesar do foco na “resiliência” e nas “zonas de disponibilidade”, a infraestrutura em nuvem ainda está sujeita às mesmas leis fundamentais da física e às vulnerabilidades de software program, assim como qualquer coisa em seu próprio information heart.
A resolução closing veio algumas horas depois, depois que os engenheiros de rede reequilibraram manualmente os sistemas distribuídos e verificaram a restauração das operações normais. A conectividade voltou, mas alguns clientes relataram inconsistências de dados, atrasos API recuperações e tempos de recuperação lentos. A luta para se comunicar com os clientes, redefinir processos e trabalhar no backlog serviu como um duro lembrete: a continuidade dos negócios depende de mais do que esperança e de um discurso de advertising robusto do seu fornecedor.
O mito do SLA à prova de balas
Algumas empresas esperavam soluções imediatas dos lendários acordos de nível de serviço da AWS. Esta é a realidade: os créditos de SLA são um conforto quando seu pipeline de receita está em queda livre. A verdade que todo CIO já enfrentou pelo menos uma vez é que mesmo os SLAs líderes do setor raramente compensam o custo actual do tempo de inatividade. Eles não compensam oportunidades perdidas, reputações prejudicadas ou o estresse de suas equipes. À medida que as interrupções regionais aumentam devido ao crescimento dos centros de dados em nuvem de hiperescala, cada um deles lutando para lidar com o aumento da procura impulsionada pela IA, a rede de segurança está a tornar-se menos fiável.