Catálogo de unidades (UC) Tabelas gerenciadas Mix forte governança com sem costura interoperabilidade através das ferramentas. Como os dados estão no armazenamento em nuvem de propriedade do cliente, as organizações mantêm controle complete sobre sua localização física, beneficiando-se do embutido dos Databricks inteligência e automação.
Hoje, as tabelas gerenciadas pela UC são o tipo de tabela mais comumente usado nos Databricks; Duas em cada três tabelas UC são gerenciadas. Essa adoção reflete sua capacidade de simplificar as operações, reduzir custos e melhorar o desempenho em escala.
Com as tabelas gerenciadas pela UC, as organizações podem ter certeza de que estão sempre usando os recursos mais recentes da tabela. Essas tabelas são atualizadas automaticamente e, diferentemente de outros tipos de tabela, elas entendem os padrões de uso, permitindo que novos recursos sejam ativados com segurança e incrementação, sem intervenção handbook.
A estrutura das tabelas gerenciadas da UC também permite Recursos avançados de IA Isso não period possível antes. Como tudo lê e escreve rota através do catálogo da unidade, os bancos de dados podem Otimize de forma inteligente dados Com base no uso actual, melhorando o desempenho da consulta, reduzindo os custos de armazenamento e eliminando a manutenção de rotina.
Os principais benefícios incluem:
- Atualizações automáticas com os recursos mais recentes
- Auto-manutenção com compactação, agrupamento e aspiração
- Armazenamento e Calcule a economia de custos através da otimização inteligente
- Acesso seguro by way of APIs abertas, mesmo para clientes que não são Databricks
- Consultas mais rápidas em todos os clientes, não apenas em Databricks
Neste weblog, forneceremos um profundo mergulho em recursos que tornam eficazes as tabelas gerenciadas pela UC, juntamente com aprimoramentos recentes e uma prévia do que está no roteiro.
“O Otimizações automáticas das Tabelas Gerenciadas da Unity nos salvaram mais de US $ 1 milhão anualmente em custos de armazenamento, eliminando a necessidade de esforço handbook tedioso diariamente”. —Abhinav Raghuvanshi, diretor associado de engenharia de dados da Zepto
Quais são os benefícios do catálogo de unidades tabelas?
As tabelas gerenciadas pela UC são otimizadas por padrão, sem necessidade de ajuste handbook. Eles se adaptam continuamente com base nas cargas de trabalho de consulta para melhorar o desempenho, reduzir os custos de armazenamento e otimizar o gerenciamento do ciclo de vida.
As tabelas gerenciadas da UC também simplificam as operações com recursos internos, como aspiração automática, compactação de arquivos e cache de metadados. Como eles são construídos em formatos abertos como Delta e Iceberg, as mesas gerenciadas pela UC se integram facilmente a ferramentas e motores de terceiros.
Otimizações inteligentes geram ganhos de custo e desempenho
As tabelas gerenciadas pela UC aplicam um conjunto de técnicas orientadas a IA para entregar 50%+ economia de custos e 20x+ consultas mais rápidas:
Cluster de líquido automático
As tabelas gerenciadas da UC agrupam os dados automaticamente com base nos padrões de consulta observados, sem exigir nenhuma configuração handbook. Por outro lado, as tabelas externas da UC exigem que os engenheiros de dados executem comandos otimizados e definam manualmente as teclas de cluster. Com as tabelas gerenciadas, a otimização preditiva lida dinamicamente, melhorando o desempenho da consulta e reduzindo os custos de armazenamento sem esforço adicional. (Leia mais)
Vácuo automático
Nas tabelas gerenciadas pela UC, a otimização preditiva identifica automaticamente quando uma operação de vácuo é benéfica e a agenda de acordo. O vácuo take away os arquivos associados a linhas excluídas após um período de retenção definido, ajudando a reduzir o uso de armazenamento. Para as tabelas UC-Exterior, esse processo deve ser gerenciado manualmente executando o comando a vácuo.
Cair diferido com limpeza automática
Quando uma tabela gerenciada pela UC é descartada, os dados subjacentes no armazenamento em nuvem são excluídos automaticamente após 7 dias, ajudando a reduzir os custos de armazenamento e evitar arquivos órfãos. Por outro lado, a queda de uma tabela externa da UC não exclui os dados; Os usuários devem remover manualmente os arquivos do balde de armazenamento. Se essa etapa for perdida, os dados permanecerão, levando ao uso desnecessário de armazenamento. Consulte a seção de roteiro para os próximos aprimoramentos para esse comportamento.
Coleção de estatísticas automáticas
As tabelas gerenciadas da UC coletam automaticamente estatísticas que melhoram o desempenho da consulta por meio de pular dados mais inteligentes e ingressar no planejamento. As principais métricas, como valores mínimos e máximos da coluna, ajudam o sistema a identificar e pular arquivos irrelevantes durante a execução da consulta, reduzindo a sobrecarga de computação. Enquanto as tabelas externas da UC geram estatísticas nas primeiras 32 colunas por padrão, as tabelas gerenciadas pela UC priorizam dinamicamente as colunas mais relevantes para cargas de trabalho de consulta reais. (Leia mais)
Cache de metadados
As tabelas gerenciadas da UC usam o cache de metadados de transação na memória para reduzir o acesso a logs de transações baseados em nuvem. Isso reduz os custos de computação e melhora o desempenho do planejamento de consultas. O recurso é exclusivo das tabelas gerenciadas pela UC, onde o Databricks pode rastrear todas as gravações e garantir que os metadados em cache permaneçam consistentes com o estado atual.
Otimização do tamanho do arquivo
O Databricks usa a IA para compactar automaticamente arquivos para tamanhos ideais, com base nos padrões aprendidos com milhares de implantações do mundo actual. Essa otimização ocorre à medida que os dados são gravados e ajudam a melhorar o desempenho da consulta, reduzindo a fragmentação de arquivos e digitalize a sobrecarga. (Leia mais)
Aberto e interoperável por design
As tabelas gerenciadas pela UC são construídas em formatos abertos como Delta e Iceberg, permitindo ampla compatibilidade em todo o ecossistema de dados moderno. Eles podem ser Acessado por qualquer motor que suporta esses formatos, incluindo Trino, DuckDB, Apache Spark ™, Daft e ferramentas integradas ao Catálogo de descanso de icebergcomo Dremio.
O acesso seguro é possível através de APIs abertas e vendas de credenciais, permitindo que as ferramentas externas interajam com os dados governados sem duplicar. Isso simplifica a arquitetura e permite uma única fonte de verdade entre análises e cargas de trabalho de IA.
O suporte para gravações de terceiros também está se expandindo. Na pré-visualização privada, as tabelas gerenciadas da UC agora aceitam as gravações de clientes que não são Databricks Delta-como o Apache Spark-é mais fácil integrar-se a estruturas de processamento externas, mantendo a governança do catálogo da unidade.
O compartilhamento da Delta, o único protocolo de compartilhamento aberto do setor, aprimora ainda mais a interoperabilidade, permitindo o acesso seguro e somente leitura aos dados subjacentes, mesmo para os destinatários que não usam bancos de dados. Esses recursos ajudam a estender o acesso a dados governados em plataformas, parceiros e aplicativos.
Como essas otimizações se aplicam no nível do structure de dados, os ganhos de desempenho são universais. As ferramentas externas se beneficiam do mesmo structure em cluster, arquivos compactados e estatísticas ricas, resultando em consultas mais rápidas e leituras mais eficientes, independentemente do mecanismo.
O que está no roteiro
Vários novos recursos estão chegando em breve, que tornarão as mesas gerenciadas pela UC ainda mais poderosas e flexíveis:
Observabilidade no nível da mesa
Ganhe visibilidade em tabelas não utilizadas, janelas de retenção, tendências de tamanho de tabela e metadados personalizados, facilitando o gerenciamento de custos e aplicar as melhores práticas.
Períodos configuráveis de não -derrotas
Personalize a janela de retenção para tabelas descartadas, incluindo suporte à exclusão imediata para reduzir ainda mais os custos de armazenamento.
Ferramentas de reorganização de esquema e catálogo
Comandos para mover tabelas entre catálogos e esquemas, ajudando as equipes a manter os conjuntos de dados logicamente organizados à medida que os ambientes evoluem.
Transações multi-estatuto e multi-tabela (visualização privada)
Suporte para compromissos atômicos em várias tabelas. Se alguma operação falhar, toda a transação reverte, melhorando a confiabilidade para operações de dados complexas.
Introdução com as mesas gerenciadas pela UC
As tabelas gerenciadas da UC são ativadas por padrão e fácil de adotar, seja criando novas tabelas ou convertendo as existentes.
Crie uma nova tabela gerenciada
Para novas cargas de trabalho, as tabelas gerenciadas pela UC são criadas sem precisar especificar um native de armazenamento. Os Databricks gerenciam automaticamente o caminho de dados no armazenamento em nuvem de propriedade do cliente:
CREATE OR REPLACE TABLE catalog.schema.my_managed_table
Converter uma tabela externa UC existente em gerenciado
As organizações que desejam converter para tabelas gerenciadas podem usar o seguinte comando para converter tabelas UC externas:
ALTER TABLE catalog.schema.my_external_table SET MANAGED
Visualizar documentação e solicite o acesso ao bloqueio do público fechado usando isso forma.
Converter tabelas estrangeiras (não UC)
Para equipes que migram de tipos de mesa estrangeiros, a conversão para tabelas gerenciadas da UC está disponível em Visualização privada. Isso facilita o consolidar a governança e a otimização sob o catálogo de unidades. Você pode solicitar acesso ao bloqueio fechado usando isso forma.
Experimente recursos avançados na visualização
Para experimentar recursos como gravações de terceiros em tabelas gerenciadas, transações com várias mesa ou reorganização de esquema, entre em contato com a equipe da sua conta de banco de dados para participar de programas de visualização relevantes.