Anunciando a pré -visualização pública da tabela de streaming e compartilhamento de visualização materializada


Estamos entusiasmados em anunciar que o compartilhamento de vistas materializado e tabelas de streaming está agora disponível em visualização pública. As tabelas de streaming (STs) ingerem contínua dados de streaming, tornando-os ideais para pipelines de dados em tempo actual, enquanto as visualizações materializadas (MVS) aprimoram o desempenho das análises SQL e dos painéis de BI, pré-computação e armazenando resultados de consulta antecipadamente.

Nesta postagem do weblog, exploraremos como o compartilhamento desses dois tipos de ativos permite que os provedores de dados melhorem o desempenho e reduzam os custos enquanto fornecem novos dados e dados relevantes aos destinatários de dados.

Anunciando a pré -visualização pública da tabela de streaming e compartilhamento de visualização materializada

Entendendo vistas materializadas e tabelas de streaming

Vistas materializadas (MVS) e Tabelas de streaming (STS) Ambos suportam atualizações incrementais, o que ajuda a manter os dados atualizados e consultas eficientes.

  • As tabelas de streaming são usadas para ingerir dados em tempo actual, geralmente formando a camada “bronze” onde os dados brutos atingem primeiro. Eles são úteis para fontes como logs, eventos ou dados do sensor.

  • As vistas materializadas são mais adequadas para as camadas de “prata” ou “ouro”, onde os dados são refinados ou agregados. Eles ajudam a reduzir o tempo de consulta, pré -computando os resultados em vez de digitalizar mesas de base completas.

Ambos podem ser usados ​​em conjunto – por exemplo, as tabelas de streaming lidam com as leituras do sensor de ingestão, enquanto as vistas materializadas executam cálculos contínuos, como a detecção de padrões incomuns.

Ler este weblog Para saber mais sobre o streaming de tabelas e vistas materializadas

Por que os provedores de dados precisam compartilhar ST?

O compartilhamento de tabelas de streaming (STS) permite que os destinatários de dados acessem dados atualizados e atualizados sem duplicar pipelines ou replicar dados. Considere um cenário em que uma empresa de varejo precisa compartilhar dados de vendas em tempo actual com um parceiro de logística para oferecer suporte a otimização de entrega quase em tempo actual.

  1. A empresa constrói e mantém uma tabela de streaming em Databricks que ingelava continuamente dados transacionais de sua plataforma de comércio eletrônico. Esta tabela captura eventos como compras de produtos, atualiza os níveis de inventário e reflete o estado atual da atividade de vendas.
  2. A empresa usa o compartilhamento da Delta para compartilhar a tabela de streaming. Isso é feito criando um compartilhamento no Databricks e adicionando a tabela com o seguinte comando SQL:

    1. O parceiro de logística recebe credenciais e detalhes de configuração para acessar a tabela de streaming compartilhada a partir de seu próprio espaço de trabalho de banco de dados.

    2. O parceiro de logística usa os dados de vendas ao vivo para prever hotspots de entrega, atualizar rotas de veículos em tempo actual e melhorar a velocidade de entrega do pacote em áreas de alta demanda.

    Tabela de fluxo

    Ao compartilhar tabelas de streaming, o parceiro de logística evita a criação de dutos redundantes de ETL, diminuindo os custos de complexidade e infraestrutura. O compartilhamento da Delta permite o acesso cruzado, para que os consumidores de dados não precisem estar no Databricks. As tabelas de streaming podem ser compartilhadas em nuvens, regiões e plataformas.

    O provedor de dados mantém controle complete sobre o acesso, usando permissões de granulação fina gerenciada por meio de Catálogo de unidades.

    Assista a essa demonstração para ver como um provedor de dados pode compartilhar ST com usuários de databricks e outras plataformas

    Por que os provedores de dados precisam compartilhar o MV?

    Compartilhar apenas as vistas materializadas, em vez das tabelas de base bruta, melhora a segurança e a relevância dos dados. Ele garante que os campos sensíveis ou desnecessários dos dados subjacentes permaneçam ocultos, enquanto ainda fornecem ao consumidor as idéias específicas de que precisam. Essa abordagem é especialmente útil quando o consumidor está interessado em resultados agregados ou filtrados e não requer acesso aos dados de origem completa.

    Por exemplo, considere um provedor de dados que monetiza as informações do mercado financeiro. Eles processam transações brutas, como negociações no mercado de ações, e criam informações agregadas valiosas (por exemplo, o desempenho diário dos setores da indústria). Um fundo de hedge (o cliente) precisa de informações diárias sobre o desempenho financeiro dos estoques de tecnologia, mas não deseja processar grandes volumes de dados de transações brutas.

    Vista materializada

    Em vez de compartilhar dados comerciais brutos, os provedores de dados podem criar um conjunto de dados com curadoria para fornecer fundos de hedge com informações pré -computadas que são mais fáceis de usar e interpretar.

    1. O provedor de dados cria dados comerciais agregados para calcular o desempenho diário do setor de tecnologia e armazena o resultado como uma visão materializada. Este MV oferece informações pré-agregadas e prontas para uso para consumidores a jusante, como o fundo de hedge.
    2. O provedor adiciona esse MV a um objeto de compartilhamento seguro e concede acesso às credenciais do destinatário do cliente:
    3. O fundo de hedge recupera o MV compartilhado usando ferramentas de análise como Python, Tableau ou Databricks SQL. Se estiver usando o banco de dados, o destinatário pode montar o compartilhamento diretamente no catálogo da unidade. O compartilhamento da Delta garante a interoperabilidade, onde os MVs podem ser compartilhados em diferentes plataformas, ferramentas (por exemplo, Apache Spark ™, Pandas, Tableau) e nuvens sem estar preso a um único ecossistema.
    4. O fundo de hedge pode usar diretamente esses dados pré-computados para gerar decisões, como ajustar seu investimento em ações de tecnologia.

    O provedor de dados evitou o gerenciamento de pipelines complexos e personalizados para cada cliente. Criar e compartilhar MVs significa que não há mais necessidade de manter várias versões dos mesmos dados. Todos os detalhes desnecessários das tabelas de base permanecem protegidos e ainda satisfazem as necessidades de dados do destinatário. O destinatário de dados obtém acesso instantâneo aos dados selecionados e gasta recursos na análise, em vez da preparação de dados.

    Assista a essa demonstração para ver como um provedor de dados pode compartilhar o MV com os usuários do Databricks e outras plataformas.

    Quando usar as visualizações versus vistas materializadas?

    O compartilhamento delta também suporta Compartilhamento de visualização de plataforma cruzadaque permite que os provedores de dados compartilhem visualizações usando o protocolo de compartilhamento Delta. Embora as vistas materializadas sejam úteis para compartilhar resultados pré-agregados e melhorar o desempenho da consulta, há casos em que as visões podem ser mais adequadas. O compartilhamento da Delta também suporta o compartilhamento de visualizações entre plataformas, nuvens e regiões. Ao contrário das vistas materializadas, as vistas não são pré -computadas – elas são avaliadas no horário da consulta. Isso os torna adequados para cenários que exigem acesso em tempo actual aos dados mais atuais ou onde os diferentes consumidores precisam aplicar seus próprios filtros em tempo actual. As visualizações oferecem mais flexibilidade, especialmente quando a otimização do desempenho é menos crítica que a frescura de dados ou a personalização específica da consulta.

    Como Kaluza está compartilhando vistas materializadas com parceiros de energia

    A Kaluza é uma plataforma avançada de software program de energia que permite que os fornecedores de energia transformem operações, reinventam a experiência do cliente e otimizem a energia para acelerar a transição para uma grade de eletricidade mais barata e mais verde.

    Os provedores de energia enfrentam crescente complexidade no gerenciamento de dados de um número crescente de dispositivos conectados, incluindo veículos elétricos, bombas de calor, painéis solares e baterias, além de um sistema de energia mais volátil e necessidades complexas dos clientes. As arquiteturas tradicionais lutam para fornecer insights em tempo actual e eficiência operacional em escala.

    O compartilhamento de MV/ST permitirá uma solução pronta para uso que permita que a plataforma Kaluza opere com redução da complexidade da engenharia. Através de pipelines que a saída materializou as vistas, a Kaluza permite que seus parceiros acessem dados e relatórios modelados para obter informações acionáveis. Essa abordagem simplifica a colaboração, reduz a sobrecarga de integração e acelera a entrega de novas proposições de clientes nos mercados.

    “A escala e a complexidade dos dados de energia exigem colaboração entre indústrias e compartilhamento de conhecimento. Compartilhamento de Delta Visões materializadas facilitam a integração perfeita com fornecedores de energia, apoiando a descarbonização da grade e o valor de direção para as partes interessadas e clientes do sistema”.

    – Thomas Millross, gerente de engenharia de dados, Kaluza

    Para encerrar as coisas, o compartilhamento de tabelas de streaming e as vistas materializado facilita a entrega de informações novas e em tempo actual, enquanto reduz os custos e a complexidade. Esteja você compartilhando fluxos de dados ao vivo ou resultados pré-computados, o compartilhamento de MV/ST ajuda a se concentrar no que importa-fazendo decisões melhores mais rapidamente. O compartilhamento de MV/ST já está disponível em visualização pública. Experimente!

    Deixe um comentário

    O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *