Estamos felizes em anunciar a prévia pública de Conexão LakeFlow para SQL Server, Salesforce e Workday. Esses conectores de ingestão permitem ingestão simples e eficiente de bancos de dados e aplicativos empresariais — alimentados por processamento de dados incremental e otimizações inteligentes sob o capô. O LakeFlow Join também é nativo da Information Intelligence Platform, portanto, oferece computação sem servidor e governança do Unity Catalog. Em última análise, isso significa que as organizações podem gastar menos tempo movendo seus dados e mais tempo obtendo valor deles.
De forma mais ampla, este é um passo elementary para concretizar o futuro da engenharia de dados no Databricks com Fluxo do Lago: a solução unificada para ingestão, transformação e orquestração que anunciamos no Information + AI Summit. O LakeFlow Join funcionará perfeitamente com o LakeFlow Pipelines para transformação e o LakeFlow Jobs para orquestração. Juntos, eles permitirão que os clientes entreguem dados mais atualizados e de maior qualidade para seus negócios.
Desafios na ingestão de dados
As organizações têm uma ampla gama de fontes de dados: aplicativos empresariais, bancos de dados, barramentos de mensagens, armazenamento em nuvem e muito mais. Para abordar as nuances de cada fonte, elas geralmente criam e mantêm pipelines de ingestão personalizados, o que introduz vários desafios.
- Configuração e manutenção complexas: É difícil conectar-se a bancos de dados, especialmente sem impactar o sistema de origem. Também é difícil aprender e acompanhar as APIs de aplicativos em constante mudança. Portanto, pipelines personalizados exigem muito esforço para construir, otimizar e manter — o que pode, por sua vez, limitar o desempenho e aumentar os custos.
- Dependências de equipes especializadas: Dada essa complexidade, os pipelines de ingestão geralmente exigem engenheiros de dados altamente qualificados. Isso significa que os consumidores de dados (por exemplo, analistas de RH e planejadores financeiros) dependem de equipes de engenharia especializadas, limitando assim a produtividade e a inovação.
- Soluções fragmentadas com governança limitada: Com uma colcha de retalhos de pipelines, é difícil construir governança, controle de acesso, observabilidade e linhagem. Isso abre a porta para riscos de segurança e desafios de conformidade, bem como dificuldades na solução de problemas.
LakeFlow Join: ingestão simples e eficiente para cada equipe
O LakeFlow Join aborda esses desafios para que qualquer profissional possa facilmente criar pipelines de dados incrementais em escala.
O LakeFlow Join é simples de configurar e manter
Para começar, os conectores levam apenas algumas etapas para serem configurados. Além disso, depois que você configura um conector, ele é totalmente gerenciado pelo Databricks. Isso reduz os custos de manutenção. Isso também significa que a ingestão não requer mais conhecimento especializado — e que os dados podem ser democratizados em sua organização.
“O conector Salesforce foi simples de configurar e fornece a capacidade de sincronizar dados com nosso knowledge lake. Isso economizou muito tempo de desenvolvimento e tempo de suporte contínuo, tornando nossa migração mais rápida”
— Martin Lee, engenheiro de software program líder em tecnologia, Ruffer
O LakeFlow Join é eficiente
Sob o capô, os pipelines do LakeFlow Join são construídos em Delta Reside Tables, que são projetados para processamento incremental eficiente. Além disso, muitos dos conectores leem e gravam apenas os dados que são alterados no sistema de origem. Finalmente, nós aproveitamos Arcontetecnologia específica de origem para otimizar cada conector para desempenho e confiabilidade, ao mesmo tempo em que limita o impacto no sistema de origem.
Como a ingestão é apenas o primeiro passo, não paramos por aí. Você também pode construir visualizações materializadas eficientes que transformam seus dados incrementalmente conforme eles percorrem a arquitetura do medalhão. Especificamente, o Delta Reside Tables pode processar atualizações em suas visualizações incrementalmente, atualizando apenas as linhas que precisam mudar, em vez de recalcular completamente todas as linhas. Com o tempo, isso pode melhorar significativamente o desempenho de suas transformações, o que, por sua vez, torna seus pipelines ETL de ponta a ponta muito mais eficientes.
“O conector aprimora nossa capacidade de transferir dados ao fornecer uma integração perfeita e robusta entre o Salesforce e o Databricks. (…) O tempo necessário para extrair e preparar dados foi reduzido de aproximadamente 3 horas para apenas 30 minutos”
— Amber Howdle-Fitton, gerente de dados e análises, Kotahi
O LakeFlow Join é nativo da Plataforma de Inteligência de Dados
O LakeFlow Join é totalmente integrado ao restante das suas ferramentas Databricks. Assim como o restante dos seus dados e ativos de IA, ele é governado pelo Unity Catalog, alimentado pelo Delta Reside Tables usando computação sem servidor e orquestrado com o Databricks Workflows. Isso permite recursos como monitoramento unificado em seus pipelines de ingestão. Além disso, como tudo faz parte da mesma plataforma, você pode usar o Databricks SQL, AI/BI e Mosaic AI para obter o máximo dos seus dados.
”Com o novo LakeFlow Connector da Databricks para SQL Server, podemos eliminar (…) produtos intermediários entre nosso banco de dados de origem e a Databricks. Isso significa ingestão de dados mais rápida, custos reduzidos e menos esforço gasto configurando, mantendo e monitorando soluções CDC de terceiros. Esse recurso nos beneficiará muito ao otimizar nosso pipeline de dados.”
— Kun Lee, Diretor Sênior Administrador de Banco de Dados, CoStar
Um roteiro emocionante do LakeFlow
A primeira onda de conectores pode criar pipelines do SQL Server, Salesforce e Workday by way of API. Mas esta Visualização Pública é apenas o começo. Nos próximos meses, planejamos começar as Visualizações Privadas de conectores para fontes de dados adicionais, como:
- Serviço agora
- Google Analytics 4
- SharePoint
- PostgreSQL
- SQL Server native
O roteiro também inclui um conjunto de recursos mais profundo para cada conector. Isso pode incluir:
- UI para criação de conectores
- Linhagem de dados
- SCD tipo 2
- Evolução de esquema robusto
- Amostragem de dados
De forma mais ampla, o LakeFlow Join é apenas o primeiro componente do LakeFlow. Ainda este ano, planejamos visualizar o LakeFlow Pipelines para transformação e o LakeFlow Jobs para orquestração — a evolução do Mesas Delta Reside e Fluxos de trabalhorespectivamente. Assim que estiverem disponíveis, não exigirão nenhuma migração. A melhor maneira de se preparar para essas novas adições é começar a usar o Delta Reside Tables and Workflows hoje mesmo.
Introdução ao LakeFlow Join
Conector do SQL Server: Suporta ingestão do Azure SQL Database e AWS RDS para SQL Server, com leituras incrementais que usam captura de dados de alteração (CDC) e tecnologia de rastreamento de alterações. Saiba mais sobre o Conector do SQL Server.
Conector Salesforce: Oferece suporte à ingestão do Salesforce Gross sales Cloud, permitindo que você junte esses insights de CRM com dados na Plataforma de Inteligência de Dados para fornecer insights adicionais e previsões mais precisas. Saiba mais sobre o Conector Salesforce.
Conector do Workday: Suporta ingestão do Workday Experiences-as-a-Service (RaaS), permitindo que você analise e enriqueça seus relatórios. Saiba mais sobre o Conector de dia de trabalho.
“O conector Salesforce fornecido no LakeFlow Join foi essential para nós, permitindo conexões diretas com nossos bancos de dados Salesforce e eliminando a necessidade de um serviço intermediário pago adicional.”
— Amine Hadj-Youcef, arquiteta de soluções, Engie
Para ter acesso à prévia, entre em contato com sua equipe de conta do Databricks.
Observe que o LakeFlow Join usa computação sem servidor para Delta Reside Tables. Portanto:
- A computação sem servidor deve estar habilitada em sua conta (veja como fazer isso para Azul ou AWSe veja uma lista de regiões habilitadas para serverless para Azul ou AWS)
- Seu espaço de trabalho deve estar habilitado para o Unity Catalog.
Para obter mais orientações, consulte o Documentação do LakeFlow Join.