As guerras territoriais de dados acabaram, mas as guerras territoriais de metadados apenas começaram


Nos últimos anos, os líderes de dados fizeram muitas perguntas sobre onde deveriam manter seus dados e qual arquitetura deveriam implementar para atender a uma incrível amplitude de casos de uso analítico. Fornecedores com formatos proprietários e mecanismos de consulta fizeram seus pitches e, ao longo dos anos, o mercado ouviu, e os líderes de dados tomaram suas decisões.

O mais interessante sobre suas escolhas é que, apesar dos milhões de dólares em advertising que os fornecedores gastaram tentando convencer os clientes de que eles construíram a próxima melhor plataforma de dados, não houve um vencedor claro.

Muitas empresas adotaram a nuvem pública, mas muito poucas organizações farão a transição tudo para a nuvem ou para uma única nuvem. O futuro para a maioria das equipes de dados será multi-nuvem e híbrido. E embora haja um claro impulso por trás do knowledge lakehouse como a arquitetura splendid para análises multifuncionais, a demanda por formatos de tabela aberta, incluindo o Apache Iceberg, é um sinal claro de que os líderes de dados valorizam a interoperabilidade e a liberdade do mecanismo. Não importa mais onde os dados estão. O que importa é como os entendemos e os disponibilizamos para compartilhar e usar.

A direção é clara. Formatos proprietários e lock-in de fornecedores são coisas do passado. Dados abertos são o futuro. E para que esse futuro seja uma realidade, as equipes de dados devem mudar sua atenção para metadados, a nova guerra territorial por dados.

A necessidade de metadados unificados

Embora arquiteturas abertas e distribuídas ofereçam muitos benefícios, elas vêm com seu próprio conjunto de desafios. À medida que as empresas buscam fornecer uma visão unificada de todo o seu patrimônio de dados para análise e IA, as equipes de dados estão sob pressão para:

  • Torne os dados facilmente consumíveis, detectáveis ​​e úteis para uma ampla gama de consumidores de dados técnicos e não técnicos
  • Melhore a precisão, consistência e qualidade dos dados
  • Garantir a consulta eficiente de dados, incluindo alta disponibilidade, alto desempenho e interoperabilidade com vários mecanismos de execução
  • Aplique políticas consistentes de segurança e governança em toda a sua arquitetura
  • Alcance alto desempenho ao mesmo tempo em que gerencia custos

A resposta para unificar os dados tem sido tradicionalmente mover ou copiar dados de uma fonte ou sistema para outro. O problema com essa abordagem é que as cópias de dados e a movimentação de dados na verdade minam todos os cinco pontos acima, aumentando os custos e tornando mais difícil gerenciar e confiar nos dados, bem como nos insights derivados deles.

Isso nos leva a uma nova fronteira de gerenciamento de dados, que é especialmente crítica para equipes que gerenciam arquiteturas distribuídas. Unificar os dados não é suficiente. As equipes de dados realmente precisam unificar os metadados.

Existem dois tipos de metadados e ambos desempenham funções críticas dentro do ciclo de vida dos dados:

Metadados operacionais suporta os objetivos da equipe de dados de proteger, governar, processar e expor os dados aos consumidores de dados certos, ao mesmo tempo em que mantém as consultas sobre esses dados com desempenho. As equipes de dados gerenciam esses metadados com um meta-armazenamento.

Metadados comerciais são metadados que dão suporte a consumidores de dados que desejam descobrir e alavancar esses dados para uma ampla gama de análises. Eles fornecem contexto para que os usuários possam encontrar, acessar e analisar facilmente os dados que estão procurando. Os metadados de negócios são gerenciados com um catálogo de dados.

Muitas soluções gerenciam bem pelo menos um desses tipos de metadados. Algumas soluções gerenciam ambos. No entanto, há muito poucas plataformas que podem unificar e gerenciar metadados comerciais e operacionais de ambientes locais e de nuvem, bem como metadados de várias ferramentas e sistemas distintos. Além disso, quase nenhuma das ferramentas disponíveis faz tudo isso e também fornece a automação necessária para dimensionar essas soluções para ambientes corporativos.

O Cloudera é construído em metadados abertos

O knowledge lakehouse aberto da Cloudera é construído no Apache Iceberg, o que facilita o gerenciamento de metadados operacionais. O Iceberg mantém os metadados dentro da própria tabela, eliminando a necessidade de pesquisas de metadados durante o planejamento de consultas e simplificando tarefas de gerenciamento de dados anteriormente complexas, como partição e evolução de esquema. Com o knowledge lakehouse aberto da Cloudera, as equipes de dados armazenam e gerenciam uma única cópia física de seus dados, eliminando movimentação de dados e cópias de dados adicionais e garantindo uma visão consistente e precisa de seus dados para cada consumidor de dados e caso de uso analítico.

A Cloudera também suporta a especificação do catálogo REST para Iceberg, garantindo que os metadados da tabela estejam sempre abertos e facilmente acessíveis por mecanismos e ferramentas de execução de terceiros. Enquanto muitos fornecedores estão focados em bloquear metadados, a Cloudera permanece agnóstica em relação à nuvem e às ferramentas para garantir que os clientes continuem tendo a liberdade de escolher.

A Cloudera também está trabalhando no acesso e rastreamento de metadados fora do ecossistema Cloudera, para que as equipes de dados tenham visibilidade de todo o seu acervo de dados, incluindo dados armazenados em diversas outras plataformas e soluções.

Automatizar metadados de negócios é a chave para alcançar escala

Enquanto metadados operacionais são frequentemente gerados por um sistema e mantidos dentro de tabelas Iceberg, metadados de negócios são frequentemente gerados por especialistas de domínio ou equipes de dados. Em um ambiente empresarial, que frequentemente apresenta centenas ou até milhares de fontes de dados, arquivos e tabelas, dimensionar o esforço humano necessário para garantir que esses conjuntos de dados sejam facilmente descobertos é impossível.

A visão da Cloudera é aumentar a experiência do catálogo de dados e remover o esforço guide de gerar metadados comerciais. Os clientes poderão aproveitar a Generative AI para garantir que cada conjunto de dados seja devidamente marcado e classificado, e seja facilmente descoberto. Com uma solução automatizada de metadados comerciais, os consumidores de dados e as equipes de dados podem encontrar facilmente os dados que estão procurando, mesmo com catálogos enormes, e nenhum conjunto de dados cairá nas rachaduras.

Segurança e governança unificadas

As equipes de dados se esforçam para equilibrar a necessidade de amplo acesso aos dados para cada consumidor de dados com segurança e governança centralizadas. Essa tarefa se torna muito mais complicada em ambientes distribuídos e em situações em que os dados se movem de sua origem para outro destino.

O Cloudera Shared Knowledge Expertise (SDX) é um conjunto integrado de tecnologias de segurança e governança para rastrear metadados em ambientes distribuídos. Ele garante que o controle de acesso e as políticas de segurança que são definidas uma vez ainda se aplicam onde e como os dados são acessados, para que as equipes de dados saibam que apenas os consumidores de dados certos têm acesso aos conjuntos de dados certos, e os dados mais sensíveis são protegidos. Ao contrário dos sistemas de dados descentralizados e isolados, ter uma camada de gerenciamento de segurança centralizada e confiável torna mais fácil para democratizar dados com a confiança de que ninguém terá acesso não autorizado a eles. De uma perspectiva de governança, as equipes de dados têm controle e visibilidade sobre a saúde de seus pipelines de dados, a qualidade de seus produtos de dados e o desempenho de seus mecanismos de execução.

As guerras territoriais de metadados apenas começaram

À medida que as equipes de dados adotam arquiteturas de dados híbridas e distribuídas, o gerenciamento de metadados é essencial para fornecer uma visão unificada e de autoatendimento dos dados, fornecer insights analíticos confiáveis ​​para os consumidores de dados e garantir a segurança e a governança em todo o conjunto de dados.

Os diretores de análise de dados podem levar algumas lições importantes das guerras de dados para este novo campo de batalha:

  1. Escolha metadados abertos: Não bloqueie seus metadados em uma única solução ou plataforma. O Iceberg é uma ótima ferramenta para garantir abertura e interoperabilidade com um grande ecossistema de software program comercial e de código aberto.
  2. Unifique o gerenciamento de metadados: Invista em uma solução de gerenciamento de metadados que unifique metadados operacionais e comerciais em todos os ambientes e sistemas, até mesmo em ferramentas e plataformas de terceiros.
  3. Automação e Escalabilidade: Aproveite a automação para lidar com a escala e a complexidade da criação e do gerenciamento de metadados em ambientes grandes e distribuídos.
  4. Segurança e Governança Centralizadas: Garanta que as políticas de segurança e governança sejam aplicadas e executadas de forma consistente em todo o cenário de dados para proteger dados confidenciais e garantir a integridade e o desempenho do seu patrimônio de dados.

Esses são os princípios orientadores das soluções de gerenciamento de metadados da Cloudera e o motivo pelo qual a Cloudera está posicionada de forma única para oferecer suporte a uma estratégia de metadados abertos em ambientes empresariais distribuídos.

Saiba mais sobre as soluções de gerenciamento de metadados da Cloudera aqui.

As guerras territoriais de dados acabaram, mas as guerras territoriais de metadados apenas começaram

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *