As integrações Zero-ETL ajudam a unificar seus dados em aplicativos e fontes de dados para insights holísticos e quebra de silos de dados. Elas fornecem uma solução totalmente gerenciada, sem código e quase em tempo actual para disponibilizar petabytes de dados transacionais em Amazon Redshift em segundos após os dados serem gravados Serviço de banco de dados relacional da Amazon (Amazon RDS) para MySQL. Isso elimina a necessidade de criar seus próprios trabalhos ETL, simplificando a ingestão de dados, reduzindo sua sobrecarga operacional e potencialmente diminuindo seus custos gerais de processamento de dados. No ano passado, anunciamos a disponibilidade geral da integração zero-ETL com o Amazon Redshift para Amazon Aurora MySQL-Edição compatível bem como a disponibilidade em versão prévia do Aurora PostgreSQL-Suitable Version, Amazon DynamoDBe RDS para MySQL.
Estou feliz em anunciar que o Amazon RDS para MySQL zero-ETL com Amazon Redshift agora está disponível para o público em geral. Esta versão também inclui novos recursos, como filtragem de dados, suporte para múltiplas integrações e a capacidade de configurar integrações zero-ETL em seu AWS CloudFormação modelo.
Nesta postagem, mostrarei como você pode começar a filtrar dados e consolidar seus dados em vários bancos de dados e knowledge warehouses. Para um passo a passo sobre como configurar integrações zero-ETL, consulte esta postagem do weblog para uma descrição de como configurar um para Aurora compatível com MySQL, que oferece uma experiência muito semelhante.
Filtragem de dados
A maioria das empresas, não importa o tamanho, pode se beneficiar da adição de filtragem aos seus trabalhos de ETL. Um caso de uso típico é reduzir os custos de processamento e armazenamento de dados selecionando apenas o subconjunto de dados necessários para replicar de seus bancos de dados de produção. Outro é excluir informações de identificação pessoal (PII) do conjunto de dados de um relatório. Por exemplo, uma empresa na área da saúde pode querer excluir informações confidenciais do paciente ao replicar dados para criar relatórios agregados analisando casos recentes de pacientes. Da mesma forma, uma loja de comércio eletrônico pode querer disponibilizar os padrões de gastos do cliente para seu departamento de advertising, mas excluir qualquer informação de identificação. Por outro lado, há certos casos em que você pode não querer usar filtragem, como ao disponibilizar dados para equipes de detecção de fraudes que precisam de todos os dados quase em tempo actual para fazer inferências. Esses são apenas alguns exemplos, então eu o encorajo a experimentar e descobrir diferentes casos de uso que podem se aplicar à sua organização.
Há duas maneiras de habilitar a filtragem em suas integrações zero-ETL: quando você cria a integração pela primeira vez ou modificando uma integração existente. De qualquer forma, você encontrará essa opção na etapa “Supply” do assistente de criação zero-ETL.
Você aplica filtros inserindo expressões de filtro que podem ser usadas para incluir ou excluir bancos de dados ou tabelas do conjunto de dados no formato database*.desk*. Você pode adicionar várias expressões e elas serão avaliadas em ordem da esquerda para a direita.
Se você estiver modificando uma integração existente, as novas regras de filtragem serão aplicadas a partir desse momento após você confirmar suas alterações e o Amazon Redshift removerá as tabelas que não fizerem mais parte do filtro.
Se você quiser se aprofundar mais, recomendo que leia esta postagem do weblog, que se aprofunda em como você pode configurar filtros de dados para integrações zero-ETL do Amazon Aurora já que os passos e conceitos são muito semelhantes.
Crie várias integrações zero-ETL a partir de um único banco de dados
Agora você também pode configurar integrações de um único banco de dados RDS for MySQL para até 5 knowledge warehouses do Amazon Redshift. O único requisito é que você deve esperar a primeira integração terminar de configurar com sucesso antes de adicionar outras.
Isso permite que você compartilhe dados transacionais com diferentes equipes, ao mesmo tempo em que fornece a elas propriedade sobre seus próprios knowledge warehouses para seus casos de uso específicos. Por exemplo, você também pode usar isso em conjunto com a filtragem de dados para distribuir diferentes conjuntos de dados para clusters de desenvolvimento, preparação e produção do Amazon Redshift do mesmo banco de dados de produção do Amazon RDS.
Outro cenário interessante onde isso pode ser realmente útil é a consolidação de clusters do Amazon Redshift usando zero-ETL para replicar para diferentes warehouses. Você também pode usar visualizações materializadas do Amazon Redshift para explorar seus dados, potencializar seus Visão rápida da Amazon painéis, compartilhar dados, treinar tarefas no Amazon SageMaker e muito mais.
Conclusão
As integrações zero-ETL do RDS para MySQL com o Amazon Redshift permitem que você replique dados para análises quase em tempo actual sem precisar criar e gerenciar pipelines de dados complexos. Ele está disponível para o público em geral hoje com a capacidade de adicionar expressões de filtro para incluir ou excluir bancos de dados e tabelas dos conjuntos de dados replicados. Agora você também pode configurar várias integrações do mesmo banco de dados de origem do RDS para MySQL para diferentes warehouses do Amazon Redshift ou criar integrações de diferentes fontes para consolidar dados em um único knowledge warehouse.
Esta integração zero-ETL está disponível para RDS para MySQL versões 8.0.32 e posteriores, Amazon Redshift Serverless e tipos de instância Amazon Redshift RA3 em Regiões AWS suportadas.
Além de usar o AWS Administration Console, você também pode configurar uma integração zero-ETL por meio da AWS Command Line Interface (AWS CLI) e usando um AWS SDK como o boto3, o AWS SDK oficial para Python.
Veja a documentação para saber mais sobre trabalhando com integrações zero-ETL.