O acesso perfeito e seguro aos dados se tornou um dos maiores desafios que as organizações enfrentam. Em nenhum lugar isso é mais evidente do que nas auditorias externas lideradas pela tecnologia, onde a análise de 100% dos dados transacionais está rapidamente se tornando o padrão-ouro. Essas auditorias envolvem a revisão de dezenas de bilhões de linhas de dados de cobrança financeira e operacional.
Para fornecer insights significativos em escala, a análise não deve apenas ser robusta, mas também eficiente – equilibrar custo, tempo e qualidade para obter os melhores resultados em prazos apertados.
Recentemente, em colaboração com um grande fornecedor de energia do Reino Unido, a KPMG alavancada Delta compartilhamento Nos bancos de dados para superar gargalos de desempenho, melhorar a eficiência e aprimorar a qualidade da auditoria. Este weblog discute nossa experiência, os principais benefícios e o impacto mensurável em nosso processo de auditoria do uso do compartilhamento da Delta.
O desafio de negócios
Para cumprir os prazos de relatórios financeiros públicos, precisávamos acessar e analisar dezenas de bilhões de linhas de dados de cobrança da entidade auditada dentro de uma pequena janela de auditoria.
Historicamente, contamos com o ambiente de análise da entidade auditada hospedada no AWS PostgreSQL. À medida que os volumes de dados aumentavam, a configuração mostrou seus limites:
- Quantity de dados: Nossa abordagem exigia olhar além do período de auditoria para analisar dados históricos que eram essenciais para a rotina. Como esse conjunto de dados aumentou significativamente ano a ano, ele acabou excedindo os limites da AWS PostgreSQL. Isso nos forçou a dividir os dados em dois bancos de dados separados, introduzindo despesas gerais e custos adicionais adicionais.
- Transferência de dados: Mover e copiar dados de um ambiente de produção para um banco de dados PostGresql ‘cercado por anel’ causou um início atrasado e uma falta de frescura e agilidade.
- Degradação do desempenho da consulta: Embora o PostgreSQL suporta o paralelismo, ele não aproveita vários núcleos de CPU ao executar uma única consulta, levando ao desempenho abaixo do superb.
- Recursos: Como o acesso ao ambiente de análise da entidade foi limitado aos seus ativos, enfrentamos desafios ao fazer o melhor uso de nosso pessoal e a integração rapidamente de novos membros da equipe.
Dadas essas restrições, precisávamos de uma solução escalável e de alto desempenho que permitisse o acesso e o processamento eficientes dos dados sem comprometer a segurança ou a governança, permitindo o ‘tempo da máquina’ reduzido para obter resultados mais rápidos.
Por que compartilhar delta?
Delta compartilhamentoum protocolo de compartilhamento de dados aberto, forneceu a solução superb, permitindo a troca de dados seguros e eficientes de plataforma cruzada entre KPMG e a entidade auditada sem duplicação.
Comparados à extensão do PostgreSQL, os Databricks ofereceram várias vantagens distintas:
- Lida com grandes conjuntos de dados: O compartilhamento da Delta foi projetado para lidar com dados em escala de petabytes, eliminando as limitações de desempenho do PostgreSQL.
- Custos mais baixos: O compartilhamento da Delta reduziu os custos de armazenamento e computação, reduzindo a necessidade de replicação e transferência de dados em larga escala.
- Flexibilidade: Dados compartilhados podem ser acessados em bancos de dados usando todos os Ferramentas Pyspark, SQL e BI Como o Energy BI, facilitando a integração perfeita em nossas entregas de auditoria.
- Tabelas Delta: Poderíamos “viajar no tempo” para estados anteriores de dados. Isso foi valioso para verificar pontos históricos que foram perdidos anteriormente no modelo de dados do cliente.
Abordagem de implementação
Introduzimos o compartilhamento da Delta de uma maneira que não interrompeu o trabalho de auditoria em andamento:
- Compartilhamento de dados: Demos à entidade uma lista (no formato JSON) das tabelas e visualizações de que precisávamos. Eles usaram trabalhos de Lakeflow e compartilhamento da Delta para disponibilizá -los diretamente para nós diretamente em nosso ambiente de banco de dados. A entidade auditada forneceu acesso compartilhando uma chave, concedendo permissão para garantir esses conjuntos de dados pré-acordados com um esforço mínimo entre a AWS e o Azure. O compartilhamento da Delta lidou com essa troca de nuvem cruzada com segurança, sem copiar ou mover os dados entre as plataformas.
- Integração com o catálogo de unidades: O Unity Catalog nos deu um único native para gerenciar permissões, aplicar políticas de governança e manter a visibilidade whole de quem acessou quais dados.
- Dados agendados atualizam: Durante os principais ciclos de auditoria, os dados foram atualizados para se alinhar com os cronogramas de relatórios financeiros.
- Otimização de desempenho: Uma vez dentro do Databricks, retrabalhamos as consultas do PostgreSQL para Spark SQL e Pyspark. Com o compartilhamento da Delta fornecendo dados governados e prontos para uso, focamos em otimizar o desempenho, em vez de gerenciar o movimento de dados.

Impacto mensurável
Utilizamos o compartilhamento da Delta para acessar e analisar bilhões de leituras de medidores em milhões de suas contas de clientes., Observamos melhorias significativas em vários KPIs:
- Consultas mais rápidas: O compartilhamento da Delta nos permitiu usar mais poder de computação para tarefas de huge information. Algumas de nossas consultas mais complexas terminaram mais de 80% mais rápidas – por exemplo, passando de 14,5 horas para 2,5 horas – em comparação com o nosso antigo processo PostGresql.
- Qualidade de auditoria aprimorada: Ao gastar menos tempo esperando por máquinas, tivemos mais tempo para nos concentrar em exceções, padrões incomuns e casos complexos de borda. Isso melhorou nossos resultados de análise de dados em 15 pontos percentuais em alguns casos e reduziu o ônus de qualquer amostragem residual.
- Economia de custos: Ao usar o compartilhamento da Delta, evitamos fazer cópias extras dos dados. Isso significava que apenas armazenamos e processamos o que period necessário, o que reduziu os custos de armazenamento e computação.
- Acesso mais rápido: Como os dados foram provisionados por meio do compartilhamento da Delta, houve menos tempo desperdiçado esperando que estivessem prontos, permitindo -nos começar a trabalhar mais cedo.
- Equipe mais fácil integração: Novos membros da equipe de embarque sem costura e uma mistura mais ampla de habilidades de codificação – SQL e Pyspark.
O uso do compartilhamento da Delta fez uma diferença notável em nosso processo de auditoria. Podemos acessar com segurança dados em plataformas em nuvem sem atrasos ou em movimento guide de dados-então nossas equipes sempre trabalham com a mais recente fonte única de verdade. Esse recurso de nuvem cruzada significa auditorias mais rápidas, resultados mais confiáveis para os clientes auditados com quem trabalhamos e o controle rígido sobre o acesso de dados em todas as etapas. – Anna Barrell, parceira de auditoria, KPMG UK
Considerações técnicas
Algumas considerações técnicas de trabalho com bancos de dados que devem ser considerados:
• Compartilhamento Delta: Como os primeiros adotantes, alguns recursos ainda não estavam disponíveis (por exemplo, compartilhando vistas materializadas), embora estejamos empolgados com o fato de estarem agora refinado com a liberação do GA E aumentaremos nossas soluções de compartilhamento Delta com essa funcionalidade.
• Trabalhos de fluxo de lago: Atualmente, não há mecanismo para confirmar se um trabalho a montante para uma tabela compartilhada da Delta foi concluída. Um script foi executado antes da conclusão e levou a uma saída incompleta, embora isso tenha sido rapidamente identificado através de nossos procedimentos de integridade e precisão.
Olhando para o futuro
O compartilhamento da Delta provou ser um mudança de jogo para análise de dados de auditoria, permitindo uma colaboração eficiente, escalável e segura. Nossa implementação bem -sucedida com o fornecedor de energia demonstra o valor do compartilhamento da Delta para clientes com diversas fontes de dados em nuvem e plataforma.
Reconhecemos que muitas organizações armazenam uma parcela significativa de seus dados financeiros no SAP. Isso apresenta uma oportunidade adicional para aplicar os mesmos princípios de eficiência e qualidade em uma escala ainda maior.
Através Parceria estratégica da Databricks com a SAPanunciado em fevereiro deste ano, agora podemos acessar os dados da SAP through compartilhamento da Delta. Essa solução conjunta, que se tornou um dos produtos de venda mais rápida da SAP em uma década, nos permite explorar esses dados enquanto preserva seu contexto e sintaxe. Ao fazer isso, podemos garantir que os dados permaneçam totalmente governados sob o catálogo da unidade e seu custo whole de propriedade seja otimizado. Como as entidades que auditamos o progresso em sua jornada de transformação, nós da KPMG estamos procurando aproveitar essa tração, antecipando os benefícios adicionais que ele trará para um processo de auditoria simplificado.