Fitch Group alcança resiliência multirregional para infraestrutura Kafka de missão crítica com o Amazon MSK Replicator


O streaming de dados e o processamento de eventos em tempo actual são componentes críticos das arquiteturas modernas de sistemas distribuídos. O Apache Kafka emergiu como uma plataforma líder para a construção de pipelines de dados em tempo actual e para permitir a comunicação assíncrona entre microsserviços e aplicativos. No entanto, executar e gerenciar clusters Kafka em escala pode ser desafiador, exigindo conhecimento especializado e sobrecarga operacional significativa.

Amazon Managed Streaming para Apache Kafka (Amazon MSK) é um serviço totalmente gerenciado que permite criar e executar aplicativos Kafka de produção. Com o Amazon MSK, você pode contar com a AWS para lidar com o trabalho pesado de provisionamento e gerenciamento de clusters Kafka, enquanto se concentra na criação de aplicativos inovadores e pipelines de processamento de dados em tempo actual.

Nesta postagem, exploramos como o Fitch Group, uma das principais empresas de classificação de crédito, usou o Amazon MSK e Replicador Amazon MSK para alcançar resiliência multirregional para sua infraestrutura Kafka de missão crítica.

Sobre o Grupo Fitch e sua necessidade de resiliência multirregional

Como fornecedor líder world de serviços de informações financeiras, o Grupo Fitch oferece insights vitais de crédito e risco, dados robustos e ferramentas dinâmicas para defender mercados financeiros mais eficientes e transparentes. Com funcionários em mais de 30 países, a cultura de credibilidade, independência e transparência do Grupo Fitch está incorporada em toda a sua estrutura, que inclui a Fitch Scores, uma das três principais agências de classificação de crédito do mundo, e a Fitch Options, fornecedora líder de insights, dados, e análises.

Para se manter competitivo e eficiente no acelerado setor financeiro, o Grupo Fitch adotou estrategicamente uma arquitetura de microsserviços orientada a eventos. No centro deste ecossistema está o Kafka, especificamente o Amazon MSK, que serve como espinha dorsal para seus sistemas de integração de dados.

O Fitch Group usa o Kafka para permitir que aplicativos enviem eventos de negócios relacionados a classificações, facilitando a automação em seus sistemas de fluxo de trabalho de classificações e fornecendo processamento em tempo actual ou quase em tempo actual. Essa escolha arquitetônica reduziu significativamente o tempo de lançamento no mercado de sistemas voltados para o usuário remaining, como os websites Fitch Scores Professional e Fitch Group Scores. Além disso, os recursos robustos do Kafka permitem agregação e distribuição contínua de dados de muitos sistemas diferentes por meio de sua plataforma de dados, melhorando a consistência, a confiabilidade e a acessibilidade dos dados em toda a organização.

Dado o papel crítico que Kafka desempenha na arquitetura do Grupo Fitch, fornecer mecanismos robustos de recuperação de desastres (DR) tornou-se basic. Qualquer interrupção na infraestrutura Kafka poderá ter repercussões significativas na automação do fluxo de trabalho de classificações, no processamento em tempo actual e nos sistemas voltados para o usuário remaining, expondo potencialmente o Grupo Fitch a riscos regulatórios, financeiros e de reputação.

Para atingir os níveis de resiliência desejados, o Grupo Fitch tinha os seguintes requisitos principais:

  • Implantação multirregional – Implante clusters MSK em várias regiões da AWS para fornecer continuidade de negócios e manter a disponibilidade do serviço durante eventos regionais ou de serviço
  • Replicação automatizada – Replique dados Kafka entre regiões quase em tempo actual com latência e perda de dados mínimas
  • Namespaces de tópicos consistentes – Mantenha os mesmos nomes e estruturas de tópicos Kafka nos clusters de origem e destino para minimizar alterações no aplicativo
  • Recuperação rápida – No caso de um failover, permita que os aplicativos comecem a consumir perfeitamente do cluster replicado com objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO) mínimos

Visão geral da solução

O Fitch Group optou por implementar sua implantação multirregional do Kafka usando o Amazon MSK e o MSK Replicator. O MSK Replicator é um serviço de replicação totalmente gerenciado que permite a replicação contínua e automatizada de dados entre clusters MSK na mesma região ou em regiões diferentes. Ele oferece suporte à replicação de dados entre clusters com configurações diferentes, incluindo contagens variadas de corretores, volumes de armazenamento e versões do Kafka. Veja como o Fitch Group usou o MSK Replicator para atingir suas metas de resiliência multirregional:

  • Clusters MSK implantados em duas regiões separadas, com o cluster primário na região principal e o cluster secundário em uma região diferente para recuperação de desastres
  • MSK Replicator configurado para replicar continuamente dados do cluster primário para o cluster secundário, mantendo os mesmos nomes e estruturas de tópicos em ambos os clusters
  • Lógica de failover de aplicativo implementada para alternar automaticamente para o consumo do cluster secundário em caso de indisponibilidade de um cluster primário, com tempo mínimo de recuperação e perda de dados

O diagrama a seguir ilustra esta arquitetura

Fitch Group alcança resiliência multirregional para infraestrutura Kafka de missão crítica com o Amazon MSK Replicator

Benefícios alcançados

Ao implementar o Amazon MSK e o MSK Replicator, o Fitch Group obteve vários benefícios importantes:

  • Recuperação de desastres aprimorada – A implantação multirregional proporciona continuidade dos negócios mesmo diante de eventos regionais ou de serviço.
  • Operações simplificadas – A capacidade gerenciada do MSK Replicator alivia a complexidade operacional das soluções de replicação personalizadas e autogerenciadas, reduzindo a carga da equipe de TI do Grupo Fitch
  • Escalabilidade – A solução pode ser dimensionada para lidar com diversas cargas de dados, garantindo que os recursos de DR cresçam junto com as necessidades do negócio
  • Mudanças mínimas no aplicativo – O MSK Replicator suporta a replicação de tópicos com o mesmo nome, o que elimina a necessidade de modificações no aplicativo do consumidor, reduzindo o esforço de desenvolvimento e possíveis erros
  • Failover e failback contínuos – Os recursos de replicação bidirecional permitem a troca rápida de operações para a região de espera com interrupção mínima e reversão direta após a restauração da região primária
  • Capacidades de teste aprimoradas – A configuração facilita exercícios regulares de DR sem impactar os sistemas de produção, permitindo que o Grupo Fitch valide seus planos de DR de forma consistente

Conclusão

Ao usar o Amazon MSK e o MSK Replicator, o Fitch Group implementou com sucesso uma infraestrutura Kafka altamente resiliente e escalável que atende aos rigorosos requisitos de continuidade de negócios e recuperação de desastres. Essa implantação multirregional permite que eles processem dados financeiros de missão crítica em escala, ao mesmo tempo em que proporciona tempo de inatividade e perda de dados mínimos em caso de eventos de serviço ou desastres. À medida que o Grupo Fitch continua a inovar e a crescer, a sua robusta infra-estrutura Kafka fornece uma base sólida para a expansão futura e o desenvolvimento de novos serviços baseados em dados, melhorando, em última análise, a sua capacidade de fornecer informações financeiras oportunas e precisas aos seus clientes.


Sobre os autores

Kalyan Janaki é especialista sênior em large information e análise da Amazon Net Providers. Ele ajuda os clientes a arquitetar e criar soluções baseadas em nuvem altamente escaláveis, seguras e de alto desempenho na AWS.

Native Nemallikanti é arquiteto corporativo e líder de streaming de eventos do Fitch Group, um provedor de serviços de informações financeiras reconhecido globalmente que opera em mais de 30 países. Suas principais responsabilidades incluem supervisionar a arquitetura e implementação de soluções de streaming de eventos, garantindo a integração e o desempenho perfeitos de sistemas que fornecem classificações de crédito, pesquisas, dados e análises para uma clientela mundial.

Chaitanya Xá é gerente técnico principal de contas da AWS, baseado em Nova York. Ele adora programar e contribui ativamente com os laboratórios de soluções da AWS para ajudar os clientes a resolver problemas complexos. Ele fornece orientação aos clientes da AWS sobre as melhores práticas para suas migrações para a nuvem. Ele também é especializado em transferência de dados AWS e no domínio de dados e análises.

Oleg Chugayev é arquiteto de soluções principal e evangelista sem servidor com mais de 20 anos em TI, possuindo várias certificações AWS. Na AWS, ele orienta os clientes em suas jornadas de transformação na nuvem, convertendo desafios complexos em roteiros viáveis ​​para públicos técnicos e empresariais.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *