
“A redundância regional funciona quando a falha é física ou infraestrutural. Não funciona quando a falha é lógica e partilhada”, disse Gogia. “Quando os contratos de metadados mudam de forma incompatível com versões anteriores, todas as regiões que dependem desse contrato compartilhado tornam-se vulneráveis, independentemente de onde os dados residam fisicamente.”
A interrupção expôs um desalinhamento entre a forma como as plataformas testam e como a produção realmente se comporta, disse Gogia. A produção envolve variações de versões de clientes, planos de execução em cache e trabalhos de longa duração que ultrapassam os limites de lançamento. “As falhas de compatibilidade com versões anteriores normalmente surgem apenas quando essas realidades se cruzam, o que é difícil de simular exaustivamente antes do lançamento”, disse ele.
A questão levanta questões sobre o processo de implantação em etapas do Snowflake. As implementações escalonadas são amplamente mal interpretadas como garantias de contenção, quando na verdade são mecanismos probabilísticos de redução de risco, disse Gogia. Mudanças de esquema incompatíveis com versões anteriores geralmente degradam a funcionalidade gradualmente à medida que componentes incompatíveis interagem, permitindo que a mudança se propague entre regiões antes que os limites de detecção sejam ultrapassados, disse ele.