O open information lakehouse está rapidamente se tornando a arquitetura padrão para análises multifuncionais unificadas em grandes volumes de dados. Ele combina a flexibilidade e a escalabilidade do armazenamento de information lake com a análise de dados, governança de dados e funcionalidade de gerenciamento de dados do information warehouse. Os formatos de tabelas abertas são um componente-chave dessa arquitetura, pois fornecem muitos dos recursos do armazenamento de dados tradicional diretamente no armazenamento de information lake, e o Apache Iceberg está rapidamente se tornando o formato padrão para fornecedores e clientes.
O Iceberg tem muitos recursos que reduzem drasticamente o trabalho necessário para fornecer uma visão de alto desempenho dos dados, mas muitos desses recursos criam sobrecarga e exigem a execução guide do trabalho para otimizar o desempenho e os custos. Para tornar o information lakehouse ainda mais fácil de gerenciar, a Cloudera está lançando o Cloudera Lakehouse Optimizer, que automatiza de forma inteligente a manutenção da tabela Iceberg, de modo que muitos desses trabalhos são executados automaticamente em segundo plano. Vamos dar uma olhada em alguns dos recursos do Cloudera Lakehouse Optimizer, os benefícios que eles oferecem e o caminho a seguir para este serviço.
Recursos do otimizador Cloudera Lakehouse
O Cloudera Lakehouse Optimizer executa tarefas automáticas de otimização de tabela Iceberg baseadas em políticas com base nas configurações do usuário e nas estatísticas da tabela Iceberg. Os trabalhos de otimização automática incluem:
Compactação: As empresas geralmente ingerem muitos arquivos pequenos, como micro lotes ou ingestão de streaming, e a leitura de vários arquivos pequenos pode impactar negativamente o desempenho da consulta. A compactação é um processo que reescreve arquivos pequenos em arquivos maiores para melhorar o desempenho. O Cloudera Lakehouse Optimizer determina de forma autônoma o melhor momento para compactar automaticamente os arquivos de dados para que os usuários sempre tenham o melhor desempenho de suas tabelas. Ele também prioriza as tabelas que devem ser otimizadas com base nos padrões de uso, de forma que só otimizamos quando há ROI actual.
Limpeza de mesa: À medida que as tabelas crescem, elas geralmente acumulam arquivos de dados, arquivos de manifesto e instantâneos não utilizados que não são mais necessários. Os usuários podem querer executar funções de manutenção de tabelas, como expiração de snapshots, remoção de arquivos de metadados antigos e exclusão de arquivos órfãos, para otimizar a utilização do armazenamento e melhorar o desempenho. O Cloudera Lakehouse Optimizer determinará de forma autônoma o melhor momento para realizar essas tarefas de manutenção e garantirá que as tabelas sempre utilizem o armazenamento ultimate.
Além da otimização e dos controles baseados em políticas, o Cloudera Lakehouse Optimizer oferece observabilidade para trabalhos de otimização, para que as equipes de dados possam ver e compreender como suas políticas estão impactando a integridade e o desempenho de suas tabelas e armazenamento.
Os benefícios
O Cloudera Lakehouse Optimizer oferece vários benefícios para empresas que gerenciam tabelas Iceberg:
- Eles experimentam menor custo whole de propriedade (TCO) como resultado da otimização do espaço de armazenamento e da redução dos tempos de execução de consultas.
- Eles podem fornecer alto desempenho de seus dados, reduzindo o número de arquivos que precisam ser lidos em uma consulta.
- Eles reduzem o esforço e a sobrecarga de gerenciamento de dados, automatizando algumas das tarefas mais tediosas de manutenção de lagos.
Fig 1. Os benchmarks internos da Cloudera demonstram economias de custo significativas usando o Cloudera Lakehouse Optimizer para manter tabelas Iceberg. Os resultados reais irão variar dependendo do uso actual.
A estrada à frente
Os recursos que estamos lançando no Cloudera Lakehouse Optimizer resolvem dois desafios muito importantes para empresas que desejam migrar para uma arquitetura open information lakehouse. Este é apenas o primeiro passo no avanço da visão da Cloudera de tornar mais fácil do que nunca o fornecimento de uma visão de alto desempenho dos seus dados. No futuro, planejamos adicionar suporte para mais recursos de otimização, incluindo a reorganização de partições para resolver problemas de distribuição de dados que podem afetar o desempenho e a otimização de consultas.
O objetivo de todos esses recursos é garantir que Cloudera seja a melhor plataforma para gerenciar e fornecer acesso às tabelas Iceberg e que o caminho para a adoção de um information lakehouse aberto seja mais fácil do que nunca.
Nosso Open Knowledge Lakehouse é gratuito para testar
Você pode experimentar gratuitamente o information lakehouse da Cloudera na AWS hoje. Vá se inscrever em nosso Teste de 5 dias aqui para ver por si mesmo.