Temos o prazer de anunciar a visualização pública da venda de credenciais para APIs abertas do Unity Catalog, permitindo que clientes externos acessem com segurança tabelas externas e gerenciadas do Unity Catalog por meio de APIs REST do Unity de código aberto e tabelas habilitadas para UniForm por meio das APIs do catálogo REST Iceberg. Esse recurso facilita a interoperabilidade contínua entre uma ampla variedade de mecanismos e ferramentas, como Apache Spark™, DuckDB, Daft, PuppyGraph, StarRocks, Spice AI, Microsoft Cloth, Salesforce Information Cloud e mecanismos de catálogo REST Iceberg, como Trino e Dremio.
Sendo a única solução de governança unificada e aberta do setor para dados e ativos de IA, Catálogo de Unidade continua a evoluir com foco na interoperabilidade entre os dados modernos e a pilha de IA. Essa abordagem aberta permite que as organizações adotem as melhores soluções para seus casos de uso de dados e IA, evitando a dependência de fornecedores. A venda de credenciais para APIs abertas é uma parte basic do nosso abrangente roteiro de código abertoseguindo o anúncio do Catálogo Unity de código aberto na Cúpula de Dados e IA de 2024. A venda de credenciais também está disponível no Versão 0.2 do Catálogo Unity de código aberto.
Governança unificada em qualquer mecanismo com venda de credenciais
Desafios de governança sem venda de credenciais
A execução de consultas em ambientes de nuvem dependia de políticas de acesso amplas e estáticas para metadados e recuperação de dados, dificultando o escalonamento. Mecanismos de consulta, como Apache Spark™recebem amplo acesso ao catálogo de metadados e contam com políticas de acesso ao armazenamento em nuvem para buscar dados do armazenamento em nuvem. Por exemplo, quando um usuário executa uma consulta, o mecanismo precisa acessar os metadados do catálogo e os dados reais do armazenamento em nuvem, como AWS S3, Azure ADLS e GCS. Os administradores normalmente concedem ao mecanismo acesso whole ao catálogo de metadados (como o metastore Hive) e criam perfis de instância/identidades de serviço gerenciado para definir quais locais de armazenamento em nuvem o mecanismo pode acessar com base nas permissões do usuário. Esses perfis de instância mapeiam o acesso em nível de usuário a políticas específicas de armazenamento de dados.

Embora esse modelo funcione para ambientes pequenos com poucos usuários e conjuntos de dados, ele falha ao escalar para grandes organizações com milhares de usuários, diferentes ferramentas/mecanismos de computação e centenas de milhares de objetos de dados. Os administradores precisam garantir que as permissões de catálogo e armazenamento estejam sincronizadas, o que pode ser um desafio à medida que o número de usuários e ativos de dados aumenta. Esta abordagem estática torna-se cada vez mais complexa, propensa a erros e difícil de sustentar, conduzindo a ineficiências, riscos de segurança e desafios de governação em grande escala.
Governança escalável com venda de credenciais
A venda de credenciais permite que um catálogo conceda acesso temporário ao armazenamento para um mecanismo que executa processamento de dados. Isso é feito por meio de credenciais de armazenamento com escopo reduzido e limitado no tempo, geradas sob demanda. Estas credenciais estão restritas ao armazenamento específico necessário para um objeto de nível superior, como uma tabela. O catálogo gerencia metadados e governança, o que significa que tem acesso permanente a todos os dados, enquanto o mecanismo só obtém acesso just-in-time. Por exemplo, se um mecanismo precisar acessar uma tabela específica armazenada em um caminho no AWS S3, o catálogo gera uma credencial limitada a esse caminho e a fornece ao mecanismo, permitindo o acesso. A venda de credenciais aproveita os mecanismos de downscoping oferecidos por provedores de nuvem, como tokens de sessão AWS ou credenciais SAS de delegação do Azure.
Principais benefícios:
- Controle de acesso centralizado: Permite o gerenciamento centralizado de permissões de acesso a dados por meio do catálogo, em vez de ter que configurar controles de acesso separadamente para cada fonte de dados subjacente.
- Acesso temporário com escopo definido: Fornece credenciais temporárias e com escopo reduzido para acessar dados, aumentando a segurança ao limitar o tempo de vida e as permissões dos tokens de acesso.
- Gerenciamento simplificado de permissões: Os administradores não precisam atualizar políticas de bucket de armazenamento individuais ou funções do IAM – as permissões podem ser gerenciadas centralmente por meio do catálogo.
- Base para recursos avançados de governança: Isto fornece os alicerces fundamentais para a implementação de políticas de acesso de nível superior. Estes poderiam incluir controles básicos de acesso ou políticas mais avançadas como RBAC (Position-Based mostly Entry Management) ou ABAC (Attribute-Based mostly Entry Management) que são dinâmicas por natureza.
Implemente políticas uma vez no Unity Catalog e aplique-as em qualquer lugar
Como a venda de credenciais permite acesso seguro para clientes externos
O Unity Catalog fornece APIs REST de código aberto, permitindo que clientes externos acessem objetos como tabelas com segurança. Os administradores podem definir políticas de acesso para esses objetos no Unity Catalog, com o Unity Catalog mantendo acesso permanente ao armazenamento. Quando um mecanismo externo, como o Apache Spark™, solicita acesso a uma tabela por meio de APIs REST usando credenciais de UC, como tokens PAT ou OAuth, o Unity Catalog emite credenciais e URLs temporários para controlar o acesso ao armazenamento com base nas funções IAM ou identidades gerenciadas específicas do usuário. permitindo a recuperação de dados e execução de consultas. Isso simplifica a administração, melhora a interoperabilidade entre mecanismos e ferramentas e estabelece as bases para recursos avançados de governança, como RBAC e ABAC, para dimensionar o gerenciamento de acesso.

Esse recurso também se estende às tabelas Iceberg gerenciadas no Unity Catalog por meio da interface Iceberg REST Catalog, aproveitando o mesmo processo temporário de venda de credenciais para ler tabelas Iceberg. Ao aprimorar a acessibilidade para uma ampla variedade de mecanismos externos integrados por meio de APIs REST do Unity, como Apache Spark™, DuckDB, Daft, PuppyGraph, StarRocks, Spice AI, Microsoft Cloth, Salesforce Information Cloud e mecanismos de catálogo REST Iceberg, como Trino e Drêmio—as organizações podem aproveitar as ferramentas de sua escolha enquanto mantêm experiências consistentes de descoberta e governança em todas as plataformas. Também planejamos estender o suporte à venda de credenciais para outros ativos do Unity Catalog, incluindo volumes (dados não estruturados, arquivos arbitrários). Fique atento!
Veja-o em ação com o Apache Spark™ e o Unity Catalog
As APIs abertas do catálogo Unity permitem que clientes externos, como o Apache Spark™, interajam com o catálogo com governança unificada. Você pode realizar operações como criação, leitura e gravação em tabelas Delta por meio da venda de credenciais temporárias. Você não precisa mais confirmar e gerenciar permissões de IAM para suas cargas de trabalho e mantê-las sincronizadas em diferentes sistemas.
O exemplo a seguir demonstra como configurar sua sessão Spark para se conectar ao Unity Catalog no Databricks para acessar tabelas armazenadas no AWS S3.
O acesso às tabelas de leitura é regido pelos privilégios de Catálogo/Esquema/Tabela. Os usuários exigem USE CATALOG, USE SCHEMA, EXTERNAL USE SCHEMA, SELECT
privilégios para ler uma tabela.
Para criar uma tabela os usuários precisam CREATE EXTERNAL TABLE
no native de armazenamento externo, bem como os privilégios de catálogo USE CATALOG, USE SCHEMA and EXTERNAL USE SCHEMA
.
Da mesma forma, você consulta suas tabelas UniForm Iceberg no Catálogo Unity por meio da API REST Iceberg. Isso permite que você acesse essas tabelas de qualquer cliente que suporte Iceberg REST sem introduzir novas dependências!
Próximas etapas
Este é apenas o começo do nosso roteiro contínuo para fornecer acesso aberto e governança unificada para qualquer dado ou ativo de IA, em qualquer formato, em qualquer carga de trabalho e compatível com qualquer mecanismo ou ferramenta de computação. A venda de credenciais é um alicerce poderoso para a governança e fique atento a novas atualizações para oferecer suporte ao acesso externo seguro a volumes (dados não estruturados, arquivos arbitrários).
- Para saber mais sobre a venda de credenciais no Catálogo e requisitos do Unity, consulte a documentação do AWS, Azul, GCP.
- Para começar a usar o Catálogo do Unity, discover os guias de configuração disponíveis para AWS, Azule GCP.
- Você também pode ler sobre versão 0.2 de código aberto do Catálogo Unity para mais detalhes