Anunciando suporte de primeira classe ao formato Iceberg no Databricks Delta Sharing


Com um crescimento de uso anual de mais de 300% por 2 anos consecutivos, o Delta Sharing é o protocolo aberto mais amplamente adotado para compartilhamento de dados e IA. Os principais provedores de dados, incluindo SAP, Walmart, Atlassian e LSEG, usam o Delta Sharing para compartilhar dados com seus parceiros e clientes em nuvens e plataformas. Hoje, temos o prazer de anunciar que o Databricks Delta Sharing tem suporte de primeira classe para o formato Apache Iceberg.

Os provedores de dados agora podem compartilhar dados com segurança e ao vivo do Databricks para qualquer cliente que suporte a API do catálogo REST do Apache Iceberg. Destinatários em plataformas como Snowflake, Trino, Flink e Spark em todas as nuvens podem usar esse recurso – aumentando o ecossistema aberto do Delta Sharing.

Além disso, estamos lançando uma visualização privada que permite que os provedores de dados usem o Delta Sharing para compartilhar tabelas Iceberg gerenciadas por catálogos fora do Databricks – incluindo AWS Glue, Hive Metastore, Snowflake Horizon e muito mais.

Anunciando suporte de primeira classe ao formato Iceberg no Databricks Delta Sharing
Figura 1: Unifique os formatos de compartilhamento e colaboração para um ecossistema aberto

Juntos, vocês podem compartilhar qualquer tabela nova ou existente (Delta ou Iceberg, gerenciada ou externa). Isto contribui para uma interoperabilidade aberta completa. Você pode trazer tabelas Iceberg de qualquer catálogo externo, gerenciá-las por meio do Databricks e do Unity Catalog e, em seguida, compartilhá-las com qualquer destinatário, seja no Databricks, em um cliente Iceberg ou em um cliente Delta. Isso permite que você aproveite o Unity Catalog como sua camada unificada de governança de dados, oferecendo um native para todo o compartilhamento.

Nesta postagem do weblog, explicaremos por que o compartilhamento aberto de dados é importante. Também nos aprofundaremos em como os clientes do Delta Sharing to Iceberg trabalham por meio de uma demonstração prática.

Por que isso é importante: compartilhamento aberto versus fechado

A maioria das soluções de compartilhamento de dados não é realmente um compartilhamento – elas são uma armadilha. Eles são fundamentalmente fechados e projetados para garantir a dependência do fornecedor, para que você só possa compartilhar com outras pessoas que já estão dentro de seus ecossistemas fechados. Isso limita suas opções, sufoca a inovação e gera replicação de dados massiva e inútil.

Delta Sharing é o padrão aberto mais amplamente adotado para compartilhamento seguro de dados. Usado por provedores de dados líderes da categoria, ele foi desenvolvido para oferecer suporte a diferentes nuvens e plataformas. Delta Sharing opera com base em três princípios básicos:

  • Compartilhe qualquer ativo.
  • Compartilhe com qualquer pessoa.
  • Compartilhe sem qualquer atrito.

Adicionar suporte ao cliente Iceberg fortalece esse compromisso. Ele permite que você compartilhe uma tabela Delta enquanto os destinatários a experimentam como uma tabela Iceberg nativa. O compartilhamento acontece por meio da API REST do Iceberg, para que os destinatários possam se conectar a partir de qualquer plataforma compatível com o Iceberg. Isso permite que você obtenha o melhor dos dois mundos: os provedores de dados se beneficiam de recursos avançados de Delta Sharing, como o compartilhamento de visualização, enquanto os destinatários recebem tabelas nativas do Iceberg por meio da API REST do Iceberg.

Figura 2: Compartilhe dados diretamente com ferramentas compatíveis com Iceberg
Figura 2: Compartilhe dados diretamente com ferramentas compatíveis com Iceberg

Os destinatários obtêm acesso seguro e em tempo actual aos dados de origem. Isso elimina silos e permite compartilhar dados abertamente com qualquer pessoa.

Esse recurso é preferrred para organizações que precisam compartilhar dados externamente com parceiros e clientes que usam clientes Iceberg, como aqueles que operam em Snowflake ou integram plataformas como Trino, Flink ou Spark. Empresas com diversas unidades de negócios operando em diversas plataformas também se beneficiam ao desbloquear a troca de dados bidirecional e contínua em ambientes multinuvem ou híbridos. Os setores que já utilizam esses padrões incluem saúde, varejo, finanças, tecnologia de publicidade e muito mais.

Interoperabilidade: origem e destino

Como acreditamos no acesso whole e aberto aos dados, não nos limitamos a compartilhar dados com os clientes da Iceberg. Agora estamos desenvolvendo a próxima evolução: compartilhar tabelas Iceberg estrangeiras que residem em catálogos externos, como AWS Glue ou Snowflake Horizon. Temos o prazer de anunciar a visualização privada do suporte do Delta Sharing para mesas Iceberg estrangeiras.

Você pode perguntar: Por que compartilhar uma mesa Iceberg através Compartilhamento Delta se residir no AWS Glue ou Snowflake? Por que não compartilhar diretamente dessa plataforma?

Primeiro, ao catalogar seus dados externos do Iceberg no Unity Catalog, você obtém um governação unificada camada no Unity Catalog, permitindo que você obtenha whole visibilidade e governança em todo o seu patrimônio de dados. Além disso, usar o Delta Sharing permite que você obtenha o o melhor dos dois mundos: você se beneficia das melhores funcionalidades de compartilhamento do Delta Sharing, enquanto mantém seus dados no formato Iceberg. Isso inclui, por exemplo, a capacidade de Delta Share Views para controle de acesso refinado, que não é suportado nativamente pela API Iceberg IRC.

Com esta Pré-visualização Privada, o Databricks Lakehouse está aberto em ambas as direções. Seu Lakehouse pode compartilhar e receber dados do crescente ecossistema Iceberg.

Essa habilidade dupla oferece:

  • Colaboração Simples: Trabalhe em conjunto, independentemente do formato de tabela aberta usado (Delta ou Iceberg).
  • Compartilhamento governado: O Unity Catalog controla o acesso e fornece logs de auditoria.
  • Alcance mais amplo: Compartilhe dados como provedor e destinatário, quebrando barreiras de plataforma.

Como funciona?

Think about sua empresa, Fornecedor Corp.usa Databricks e Delta Lake para gerenciar dados de clientes. Você precisa compartilhar com segurança uma lista diária de vendas de produtos com Parceiro Inc.que usa Snowflake e prefere o formato Iceberg.

Antes deste recurso: A Supplier Corp teria que exportar manualmente os dados, transformá-los em um formato legível pelo Snowflake, carregá-los para o armazenamento em nuvem do parceiro e configurar um trabalho de sincronização complexo. Isso é lento, caro, envolve sobrecarga administrativa significativa e corre o risco de os dados ficarem desatualizados.

Com Delta Sharing para clientes Iceberg:

  1. Fornecedor Corp. permite que o Iceberg leia dados de vendas por meio do UniForm (isso pode incluir tabelas Delta gerenciadas e externas, visualizações, visualizações materializadas e tabelas de streaming) e os compartilha por meio do Delta Sharing. Isso fornece acesso ao vivo sem necessidade de duplicação ou reingestão.
  2. Parceiro Inc. configura uma conexão simples no Snowflake usando as credenciais fornecidas para autenticação segura por meio de tokens de portador de curta duração.
  3. Os analistas da Associate Inc podem consultar imediatamente a tabela compartilhada usando SQL padrão, tratando-a como uma tabela Iceberg nativa em seu ambiente Snowflake.
  4. Os dados que eles veem são sempre ao vivo (cópia zero), e a Supplier Corp mantém whole segurança e governança com auditoria e monitoramento usando o Unity Catalog.

Isso torna o compartilhamento de dados instantâneo, seguro e totalmente independente de formato.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *