Encontre dados confidenciais em escala com classificação de dados no Unity Catalog


Por que dados confidenciais são perdidos

À medida que as organizações expandem as suas plataformas de dados, as informações confidenciais muitas vezes ficam ocultas à vista de todos. Novas tabelas surgem todos os dias, os cenários regulatórios estão se tornando cada vez mais complexos e os riscos são maiores do que nunca. De acordo com o Relatório do rastreador de aplicação do GDPRsó as multas do RGPD ultrapassaram os 5,6 mil milhões de euros em 2025, um crescimento de 1,17 mil milhões de euros desde 2024.

Os métodos de descoberta handbook simplesmente não são escalonáveis. O que funcionou para centenas de tabelas falha em milhares. O resultado? Pontos cegos de conformidade, auditorias dispendiosas e democratização de dados paralisada. O problema elementary é que você simplesmente não consegue proteger o que não consegue encontrar.

Apresentando a Classificação de Dados Agentic

Hoje, temos o prazer de anunciar a visualização pública da classificação de dados do Databricks na AWS, Azure Databricks e GCP.

A classificação de dados usa um sistema de IA agente para descobrir e marcar automaticamente dados confidenciais em todos os seus catálogos. Ele fornece visibilidade contínua sobre onde residem as informações de identificação pessoal (PII), permitindo que você permaneça em conformidade, automatize a proteção e compartilhe dados com confiança entre as equipes, mesmo à medida que seus dados crescem.

A classificação de dados oferece detecção abrangente e automatizada de PII em nosso ambiente de dados em expansão, garantindo que informações confidenciais sejam claramente identificadas e permitindo proteção consistente. Essa abordagem não apenas ajuda a proteger ativos confidenciais, mas também reduz as cargas de trabalho manuais. À medida que implementamos isso de forma mais ampla, esperamos liberar nossas equipes para iniciativas de maior valor. — Gregg Rinsler, Diretor Sênior de Governança de Dados, FanDuel

Transforme auditorias manuais em visibilidade contínua

Com a classificação automatizada implementada, suas equipes podem mudar da classificação handbook para a governança estratégica:

  • Preparação para auditoria: Obtenha registros completos para mostrar onde residem as PII e exatamente quais usuários e grupos têm acesso a elas.
  • Linhagem completa: Rastreie exatamente quando as PII existem e para onde elas fluem downstream. Não corra o risco de perder pontos onde as PII foram acidentalmente copiadas em conjuntos de dados downstream.
  • Solicitações de exclusão de dados: Localize e limpe todas as instâncias de dados do usuário em todas as suas tabelas.

A moeda de toda equipe de dados é a confiança, que é “consistência ao longo do tempo”. A classificação de dados ajuda a fornecer essa confiança, verificando nosso patrimônio de dados em busca de PII e automatizando fluxos de trabalho de correção. O resultado são dados verificados e compatíveis nos quais as equipes podem confiar. — Sam Shah, vice-presidente de engenharia, equipe de dados do Databricks

Encontre dados confidenciais em escala com classificação de dados no Unity Catalog

Como funciona a classificação de dados

A classificação de dados foi projetada para trazer classificação automatizada e agente que abrange todos os seus dados. Veja como fazemos isso:

AI Agentic para classificação precisa: Combina reconhecimento comprovado de padrões, metadados e grandes modelos de linguagem com precisão até 60% maior do que ferramentas somente regex. Seus dados nunca saem do seu ambiente seguindo os padrões de controles de segurança do Databricks AI (AWS | Azul | GCP).

Digitalização eficiente e inteligente para escala empresarial: Verifica todo o seu catálogo uma vez e, em seguida, verifica novamente apenas tabelas e colunas novas ou alteradas. A linhagem do Unity Catalog garante que conjuntos de dados críticos sejam escaneados de forma incremental, garantindo que as PII sejam capturadas conforme aparecem. Desde o lançamento inicial da versão Beta, melhoramos significativamente a velocidade de detecção e reduzimos os custos de verificação em até 75%. Este sistema foi testado em batalha para garantir alto desempenho à medida que sua plataforma de dados cresce.

Revisão e validação: Obtenha visibilidade completa das colunas que contêm PII e quem atualmente tem acesso a esses dados. Nossa IU de revisão focada apresenta detecções de alta confiança com dados de amostra, permitindo que você aplique tags em massa com facilidade. Os resultados completos são armazenados em tabelas do sistema para relatórios ou tags personalizados.

A classificação de dados está transformando nossa abordagem de conformidade ao automatizar a detecção de PII. Utilizamos resultados de classificação juntamente com um fluxo de trabalho de autorização através de aplicações Databricks para permitir controlos de acesso Simply-In-Time. Isso nos permite manter dados confidenciais acessíveis somente quando necessário. Eliminamos os esforços manuais para isso e, em vez disso, criamos detecção e proteção automatizadas em todos os nossos dados residentes na plataforma Databricks. — Abhijit Joshi, engenheiro de dados da equipe, Oportun

Crie controle de acesso escalável

Depois de saber onde estão os dados confidenciais, será mais fácil protegê-los e o acesso poderá ser escalonado com segurança.

  • Automatize os níveis de sensibilidade: Automatize os fluxos de trabalho de solicitação de acesso existentes onde os usuários são aprovados com base na confidencialidade do conjunto de dados. Por exemplo, use tags de classificação de dados para categorizar tabelas automaticamente de acordo com os níveis de confidencialidade da sua organização (por exemplo, confidencial, restrito, interno ou público).
  • Dimensione a governança com políticas ABAC: Políticas de controle de acesso baseado em atributos (ABAC) mascarar ou criptografar automaticamente colunas confidenciais. Por exemplo, configure uma política que mascare todas as colunas marcadas como (class.title), (class.email_address) e (class.phone_number) para todos, exceto sua equipe de segurança. Depois de configurada, esta política se aplica automaticamente aos dados marcados como confidenciais, garantindo uma proteção de dados consistente que se adapta ao seu negócio.

  • Use ABAC para abrir o acesso com segurança: Considere a tabela de transações do cliente no exemplo acima, que pode conter colunas confidenciais (por exemplo, nome_do_cliente, electronic mail, telefone) e colunas não confidenciais (por exemplo, colunas transaction_id ou customer_id). As políticas ABAC mascaram apenas as colunas confidenciais, deixando abertos os campos não confidenciais. Não há necessidade de bloquear tabelas inteiras ou manter uma lógica de visualização complexa.

O que vem a seguir?

Aqui está o que está em nosso roteiro para os próximos meses:

  • Suporte API e Terraform *Em breve em visualização pública*
  • Classificadores regionais e específicos de domínio integrados como PHI e PCI *Em breve em visualização pública*
  • Regras de classificação personalizadas para padrões de dados específicos de negócios. Estamos usando sistemas de IA de agência para desenvolver padrões específicos para os dados da sua empresa *Em visualização privada*

Comece hoje mesmo com a visualização pública

Pronto para transformar processos manuais em classificação de dados automatizada? Comece com nossos recursos abaixo:

  • Leia a documentação do nosso produto (AWS | Azul | GCP)
  • O produto é compatível com HIPAA e segue os padrões de confiança e segurança dos recursos do Databricks AI. Leia mais em nossas perguntas frequentes de segurança aqui (AWS | Azul | GCP).
  • Entre em contato com seu representante de conta para se inscrever em nossos classificadores personalizados Visualização privada
  • Comece hoje e habilite a classificação de dados em qualquer guia Detalhes do catálogo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *