O conector nativo da Rockset para Amazon Managed Streaming for Apache Kafka (MSK) torna mais simples e rápido a ingestão de dados de streaming para análises em tempo actual. O Amazon MSK é um serviço AWS totalmente gerenciado que oferece aos usuários a capacidade de criar e executar aplicativos usando o Apache Kafka. O Amazon MSK fornece operações de plano de controle, como criação e exclusão de clusters, ao mesmo tempo que permite que os usuários usem operações de plano de dados do Apache Kafka para produzir e consumir dados.
Com a integração do MSK, os usuários não precisam construir, implantar ou operar nenhum componente de infraestrutura no lado do Kafka. Veja como a Rockset está facilitando a ingestão de dados de streaming do MSK com esta integração de dados:
- A integração é gerenciada inteiramente pela Rockset e pode ser configurada com apenas alguns cliques, mantendo nossa filosofia de tornar acessíveis análises em tempo actual.
- A integração é contínua, portanto, quaisquer novos dados no tópico Kafka serão indexados no Rockset, proporcionando uma latência de dados ponta a ponta de cerca de dois segundos.
- Não há necessidade de pré-criar um esquema para executar análises em tempo actual em fluxos de eventos do Kafka. O Rockset indexa todo o fluxo de dados para que, quando novos campos são adicionados, eles sejam imediatamente expostos e tornados consultáveis usando SQL.
Sob o capô
A integração Kafka do Rockset adota a API Kafka Client, que é uma biblioteca Java vanilla de baixo nível que pode ser facilmente incorporada em aplicativos para rastrear dados de um tópico Kafka.
Quando você cria uma nova coleção a partir de uma integração do Amazon MSK e especifica um ou mais tópicos, o Rockset acompanha esses tópicos usando a API Kafka Client e consome dados em tempo actual. Rockset lida com todo o trabalho pesado, como verificação de progresso e resolução de casos de falha comuns com o Arquitetura Aggregator Leaf Tailer (ALT). As compensações de consumo são totalmente gerenciadas pelo Rockset, sem salvar nenhuma informação dentro do cluster do cliente. Cada trabalhador de ingestão recebe sua própria atribuição de partição de tópico e os últimos deslocamentos processados durante a inicialização do coordenador de ingestão e, em seguida, aproveita o consumidor incorporado para buscar dados de tópico do Kafka.
A principal diferença entre Amazon MSK e Kafka Confluente na integração Kafka do Rockset é como nos autenticamos com seu cluster. O Amazon MSK usa o IAM para autenticação segura, por isso adicionamos suporte para autenticação do IAM usando funções do IAM entre contas da AWS. Quando você cria uma nova integração do Amazon MSK e fornece uma função do IAM entre contas, o Rockset se autentica com seu cluster MSK usando o Biblioteca Amazon MSK para IAM.
Amazon MSK e Rockset para análise em tempo actual
Assim que os dados do evento chegam ao MSK, o Rockset os indexa automaticamente para consultas SQL em menos de um segundo. Você pode pesquisar, agregar e unir dados em tópicos Kafka e outras fontes de dados, incluindo dados em S3, MongoDB, DynamoDB, Postgres e muito mais. Em seguida, basta transformar a consulta SQL em uma API para fornecer dados em seu aplicativo.
Também testamos a nova integração MSK com dados de amostra e várias configurações de carga, enviando uma taxa de transferência máxima de aproximadamente 33 MB/s.
Configuração rápida do Amazon MSK
Configure a integração
Para configurar uma integração do Amazon MSK, primeiro acesse a página de integrações no console Rockset. Selecione a opção Amazon MSK e clique em “Iniciar” para começar a criar sua integração MSK e fornecer informações para o Rockset se conectar ao seu cluster.
Forneça um nome para sua integração junto com uma descrição opcional. Crie uma nova política do IAM e anexe a política a uma função do IAM nova ou existente para fornecer ao Rockset acesso de leitura ao seu cluster MSK. Forneça o ARN da função do IAM e o URL dos servidores de inicialização no painel do cluster MSK.
Crie uma coleção
Uma coleção no Rockset é semelhante a uma tabela no mundo SQL. Para criar uma coleção, basta adicionar detalhes, incluindo o(s) tópico(s) Kafka que você deseja que o Rockset consuma. O deslocamento inicial permite preencher dados históricos, bem como capturar os fluxos mais recentes.
Consultar dados do tópico usando SQL
Assim que os dados forem ingeridos, o Rockset irá indexá-los em um Índice Convergente para análises rápidas em escala. Isso significa que você pode consultar dados semiestruturados e profundamente aninhados usando SQL sem a necessidade de qualquer preparação de dados ou ajuste de desempenho.
Neste exemplo, podemos simplesmente escrever uma consulta SQL nos dados do Amazon MSK para os quais acabamos de configurar a integração, passando da configuração à consulta em questão de minutos.
Estamos entusiasmados em continuar facilitando a análise de dados de streaming em tempo actual para desenvolvedores e equipes de dados. Se você é usuário do Amazon MSK, agora é mais fácil do que nunca com o Rockset suporte nativo para MSK.