As 10 principais perguntas que você fez sobre salas limpas do Databricks, respondidas


A colaboração de dados é a espinha dorsal da inovação moderna em IA, especialmente à medida que as organizações colaboram com parceiros externos para desbloquear novos insights. No entanto, a privacidade dos dados e a proteção da propriedade intelectual continuam a ser grandes desafios para permitir a colaboração e, ao mesmo tempo, salvaguardar os dados sensíveis.

Para preencher essa lacuna, os clientes de todos os setores estão usando Salas limpas de databricks para executar análises compartilhadas de dados confidenciais e permitir a colaboração que prioriza a privacidade.

Compilamos abaixo as 10 perguntas mais frequentes sobre Salas Limpas. Eles abrangem o que são salas limpas, como protegem dados e IP, como funcionam em nuvens e plataformas e o que é necessário para começar. Vamos começar.

1. O que é uma “sala limpa de dados”?

Uma sala limpa de dados é um ambiente seguro onde você e seus parceiros podem trabalhar juntos em dados confidenciais para extrair insights úteis, sem compartilhar os dados brutos confidenciais subjacentes.

No Databricks, você cria uma sala limpa, adiciona os ativos que deseja usar e executa apenas notebooks aprovados em um ambiente isolado, seguro e governado.

As 10 principais perguntas que você fez sobre salas limpas do Databricks, respondidas

2. Quais são alguns exemplos de casos de uso de salas limpas?

As salas limpas são úteis quando várias partes precisam analisar dados confidenciais sem compartilhar seus dados brutos. Muitas vezes, isso se deve a regulamentações de privacidade, contratos ou proteção da propriedade intelectual.

Eles são usados ​​em muitos setores, incluindo publicidade, saúde, finanças, governo, transporte e monetização de dados.

Alguns exemplos incluem:

Publicidade e advertising and marketing: Resolução de identidade sem exposição de PII, planejamento e medição de campanhas, monetização de dados para mídia de varejo e colaboração de marca.

  • Parceiros como Epsilon, The Commerce Desk, Acxiom, LiveRamp e Deloitte utilizam salas limpas do Databricks para resolução de identidade.

Serviços Financeiros: Bancos, seguradoras e empresas de cartão de crédito combinam dados para melhores operações, detecção e análise de fraudes.

  • Exemplos: MasterCard usa salas limpas para combinar e analisar dados PII para detecção de fraudes; Intuição combina com segurança os dados do mutuário com os credores para encontrar mutuários qualificados.

As salas limpas protegem os dados dos clientes, ao mesmo tempo que permitem a colaboração e o enriquecimento de dados.

3. Que tipos de ativos de dados posso compartilhar em uma sala limpa?

Você pode compartilhar uma ampla variedade de ativos gerenciados pelo Unity Catalog em Databricks Clear Rooms:

  • Tabelas (Gerenciado, Externo e Estrangeiro): dados estruturados como transações, eventos ou perfis de clientes.
  • Visualizações: fatias filtradas ou agregadas de suas tabelas.
  • Volumes: arquivos como imagens, áudio, documentos ou bibliotecas de códigos privados.
  • Cadernos: blocos de anotações SQL ou Python que definem a análise que você deseja executar.

Veja como fica na prática:

  • UM varejistaum Marca CPGe um empresa de pesquisa de mercado compartilhe visualizações anônimas, incluindo: IDs de clientes com hash, métricas de vendas agregadas e dados demográficos regionais para analisar em conjunto o alcance da campanha.
  • UM plataforma de streaming e um agência de publicidade compartilhe tabelas de impressão de campanha e um pocket book que calcula métricas de público de plataforma cruzada.
  • UM banco e um parceiro fintech compartilhe volumes contendo modelos de ML de risco e fraude e use um pocket book para pontuar conjuntamente os modelos, mantendo a privacidade dos registros individuais.

4. Como isso se compara ao Delta Sharing? Por que eu usaria uma sala limpa?

Pense desta forma: o Delta Sharing é a escolha certa quando uma parte precisa de acesso somente leitura aos dados em seu próprio ambiente e é aceitável que ela veja os registros subjacentes.

As Salas Limpas adicionam um espaço seguro e controlado para análise multipartidária quando os dados devem permanecer privados. Os parceiros podem unir ativos de dados, executar códigos aprovados mutuamente e retornar apenas os resultados com os quais todas as partes concordam. Isso é útil quando você precisa atender a garantias rígidas de privacidade ou oferecer suporte a fluxos de trabalho regulamentados. Na verdade, os dados compartilhados em salas limpas ainda usam o protocolo Delta Sharing nos bastidores.

Por exemplo, um varejista pode usar o Delta Sharing para fornecer a um fornecedor acesso somente leitura a uma tabela de vendas para que ele possa ver como os produtos estão sendo vendidos. A mesma dupla usaria uma sala limpa quando precisasse reunir dados mais ricos e confidenciais de ambos os lados (como características do cliente ou inventário detalhado), executar cadernos aprovados e compartilhar apenas resultados agregados, como previsões de demanda ou itens de maior risco.

5. Como os dados confidenciais e a propriedade intelectual são protegidos na sala limpa?

As Salas Limpas são construídas para que seus parceiros nunca vejam seus dados brutos ou IP. Seus dados permanecem em seu próprio catálogo do Unity e você compartilha apenas ativos específicos na sala limpa por meio do Delta Sharing, que é controlado por notebooks aprovados.

Para aplicar essas proteções em uma sala limpa:

  • Os colaboradores veem apenas esquemas (nomes e tipos de colunas), e não os dados reais em nível de linha.
  • Somente notebooks aprovados por você e seus parceiros podem ser executados em computação sem servidor em um ambiente isolado.
  • Os notebooks gravam em tabelas de saída temporárias, para que você controle exatamente o que sai da sala limpa.
  • O tráfego de rede de saída é restrito por meio de controles de saída sem servidor (SEG).
  • Para proteger o IP ou o código proprietário, você pode empacotar sua lógica como uma biblioteca privada, armazená-la em um quantity do Unity Catalog e referenciá-la em notebooks de sala limpa sem revelar seu código-fonte.

6. Colaboradores em nuvens diferentes podem ingressar na mesma sala limpa?

Sim. As Salas Limpas são projetadas para colaboração multicloud e entre regiões, desde que cada participante tenha um espaço de trabalho habilitado para Unity Catalog e Delta Sharing habilitado em seu metastore. Isso significa que uma organização que usa Databricks no Azure pode colaborar em uma sala limpa com parceiros na AWS ou no GCP.

Colaboradores de Salas Limpas

7. Posso trazer dados do Snowflake, BigQuery ou outras plataformas para uma sala limpa?

Sim, absolutamente. Federação de Lakehouse expõe sistemas externos como Snowflake, BigQuery e armazéns tradicionais como catálogos estrangeiros em Catálogo de Unidade (UC). Assim que as tabelas externas estiverem disponíveis no UC, você as compartilha na sala limpa da mesma forma que compartilha qualquer outra tabela ou visualização.

Veja como funciona em alto nível: você usa o Lakehouse Federation para criar conexões e catálogos externos que expõem fontes de dados externas no Unity Catalog, sem precisar copiar todos esses dados para o Databricks. Depois que essas tabelas externas estiverem disponíveis no Unity Catalog, você poderá compartilhá-las em uma Sala Limpa como qualquer outra tabela ou visualização gerenciada pelo Unity Catalog.

8. Como executo uma análise personalizada em dados conjuntos?

Dentro de uma sala limpa, você faz quase tudo através de cadernos. Você adiciona um pocket book SQL ou Python que inclui o código para a análise desejada, seus parceiros revisam e aprovam o pocket book e então ele pode ser executado.

Como executar uma análise personalizada em dados conjuntos

Caso simples: você pode ter um bloco de anotações SQL que conta IDs com hash sobrepostos entre as compras de um varejista e as impressões de um parceiro de mídia e, em seguida, fornece alcance, frequência e conversão.

Mais avançado: você usa um pocket book Python para unir recursos de ambos os lados, treinar ou pontuar um modelo nos dados combinados e escrever previsões em uma tabela de saída. O executor aprovado vê os resultados, mas ninguém vê os registros brutos do outro lado.

9. Como funciona a colaboração multipartidária?

Numa Sala Limpa do Databricks, pode ter até 10 organizações (você mais 9 parceiros) a trabalhar em conjunto num ambiente seguro, mesmo que esteja em nuvens ou plataformas de dados diferentes. Cada equipe mantém seus dados em seu próprio Catálogo do Unity e compartilha apenas as tabelas, visualizações ou arquivos específicos que deseja usar na sala limpa.

Depois que todos estiverem envolvidos, cada parte poderá propor notebooks SQL ou Python, e esses notebooks precisam de aprovação antes de serem executados, para que todos os lados se sintam confortáveis ​​com a lógica.

10. Então, tudo isso parece bom. Como posso começar?

Esta é uma maneira simples de começar:

  • Verifique se o seu espaço de trabalho tem o Unity Catalog, o Delta Sharing e a computação sem servidor habilitados.
  • Crie um objeto Clear Room em seu metastore do Unity Catalog e convide seus parceiros com seus identificadores de compartilhamento.
  • Cada parte adiciona os ativos de dados e notebooks nos quais deseja colaborar.
  • Depois que todos aprovarem os notebooks, execute sua análise e revise os resultados em seu próprio metastore.

Assista isto vídeo para saber mais sobre a criação de salas limpas e como começar.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *