
(Harsamadu/Shutterstock)
A troca de grandes quantidades de dados é crítica para a maioria dos processos de negócios atuais, permitindo experiências inovadoras aos clientes em grande escala. Mas obter rapidamente dados limpos e de alta qualidade onde eles precisam estar, seja para um sistema interno ou para parceiros externos, é um grande desafio para as equipes de dados. E fazer isso em tempo actual é ainda mais complexo. A movimentação de dados de forma segura, confiável e rápida requer uma boa governança de dados — mas que tipo de estrutura é necessária para garantir que os dados sejam bem controlados por meio da distribuição em tempo actual dentro da organização?
Na Capital One, iniciamos uma transformação tecnológica há mais de uma década que exigiu modernizar nosso ecossistema de dados na nuvem. Construímos – e continuaremos a evoluir – um ecossistema de dados central e elementary que permite que as equipes de toda a empresa aproveitem e compartilhem dados bem controlados em toda a organização. A boa governação desempenhou um papel essential na modernização do nosso ecossistema de dados, o que torna a governação ainda mais crítica atualmente.
As melhores práticas descritas abaixo podem ajudar as empresas a capacitar as suas equipas para aproveitar os dados de uma forma bem governada, concentrando-se na implementação de padrões e plataformas de dados centrais com governação de dados integrada.
Crie um portal central de autoatendimento
Para garantir que os dados permaneçam bem controlados durante todo o seu ciclo de vida, comece construindo um
hub onde os dados de todos os seus repositórios separados podem ser acessados em um só lugar. A partir daqui, você pode configurar vários pipelines com regras, restrições e políticas que determinam a acessibilidade dos dados, a velocidade dos dados (por exemplo, se os dados são transmitidos ou não), a aplicação de esquemas, a qualidade dos dados e muito mais. Este portal de autoatendimento deve permitir que sua organização virtualize todas as fontes de dados em uma camada de dados única e unificada. Isso fornece uma visão panorâmica do seu cenário de dados, facilitando o acesso e o uso dos usuários, ao mesmo tempo em que implementa controles de governança sobre acesso a dados, privacidade, segurança e muito mais. Ter esse portal de autoatendimento centralizado é elementary para federar os dados em toda a empresa.
Estabeleça governança de qualidade de serviço
Quer os dados sejam partilhados em tempo actual ou de forma assíncrona, é importante garantir que todos os dados aderem à governação definida com base na sua sensibilidade e valor. Mesmo os dados que hoje podem não parecer necessários para acesso em tempo actual podem se tornar críticos no futuro. Desde o início, você deve aplicar diversos níveis de governança e controles de acesso e segurança, dependendo dos dados. Isto significa aplicar rigor na governação no início do ciclo de vida dos dados, o que pode incluir monitorização robusta da qualidade dos dados, rastreio de linhagens e controlos de segurança, dependendo do valor e da sensibilidade dos dados. Dessa forma, qualquer conjunto de dados pode ser facilmente apresentado e compartilhado à medida que os requisitos evoluem, sem refatoração dispendiosa posteriormente.
Publique uma vez, publique corretamente
Quando os dados se movem em milissegundos, uma governança forte garante que eles fluam para os lugares certos, por meio das regras certas, no momento certo. Certifique-se de estabelecer regras sobre quando e onde os dados são publicados e para quais aplicações eles ficam disponíveis, mas também de estabelecer monitoramento e observabilidade. As equipes precisam ter certeza de que seus dados estarão disponíveis para casos de uso críticos específicos exatamente quando precisarem deles, seja em tempo actual ou assíncrono. Na Capital One, o uso de dados em tempo actual ajuda a detectar fraudes e permitir transações rápidas e seguras, mas os dados em lote ainda são necessários para potencializar os casos de uso e impulsionar a IA/ML em escala.
Torne os dados rastreáveis e auditáveis
A transparência é elementary ao configurar uma estrutura de governança de dados. As equipas precisam de ser capazes de monitorizar e auditar todos os fluxos de dados para garantir a conformidade com os quadros de governação, identificar potenciais problemas, garantir a segurança dos dados e melhorar a eficiência geral.
É aqui que seu hub de dados centralizado entra em ação, fornecendo recursos granulares de publicação e assinatura para que os proprietários dos dados possam monitorar quais conjuntos de dados são compartilhados com quais equipes e sob quais parâmetros. Você pode definir acordos de nível de serviço (SLAs) em torno dos requisitos de atualização de dados. Além disso, as ferramentas de observabilidade permitem que as equipes de dados monitorem se os SLAs estão sendo cumpridos nos pipelines de dados.
Invista no armazenamento certo
Para tornar possível a partilha de dados em larga escala, as empresas precisam de investir fortemente no armazenamento e na infraestrutura adequados. A maioria dos knowledge lakes e warehouses também permite que os usuários alternem os níveis de acesso e monitoramento para conjuntos de dados específicos. Certifique-se de verificar o nível de controles e monitoramento oferecidos pelos fornecedores de sua escolha. Nem todos os dados precisam ser armazenados nos armazéns de maior desempenho (e custo) o tempo todo — alguns dados podem ser armazenados de forma mais econômica em knowledge lakes se não precisarem ser acessados e compartilhados em tempo actual. Mesmo no contexto de dados em tempo actual, existem mecanismos para equilibrar custo e desempenho. A chave é estabelecer mecanismos de governança inteligentes para mover dados de forma inteligente entre níveis de armazenamento com base em requisitos de acesso e casos de uso por meio do estabelecimento de qualidade de serviço e SLAs que definam latência, retenção e tolerância de custos.
Outra dica ao equilibrar custo e desempenho é garantir que todos os dados sejam marcados com bons metadados, como períodos de retenção necessários, tempo desde o último acesso e padrões de uso. Esses metadados nos permitem mover automaticamente os dados para diferentes níveis de armazenamento – mantendo alguns dados em níveis acelerados, enquanto arquivamos outros dados em um armazenamento mais barato. Essa abordagem multicamadas também garante que todos os dados, independentemente de sua usabilidade atual, sejam armazenados e possam ser encontrados para uso futuro. Nunca se sabe quando dados que hoje parecem sem importância se tornarão importantes amanhã.
Ao adotar antecipadamente uma abordagem estratégica à governança de dados, uma empresa pode desbloquear todo o potencial dos seus dados em escala. Os usuários podem encontrar, acessar e usar dados de forma rápida, segura e confiável para potencializar aplicativos em tempo actual e tomadas de decisões críticas. Embora a implementação de uma governança de dados robusta seja um investimento significativo – e uma cooperação estreita entre equipes de dados, negócios e liderança – as vantagens competitivas de ser uma organização verdadeiramente orientada por dados fazem com que o esforço valha a pena.
Sobre o autor: Marty Andolino, vice-presidente de engenharia, tecnologia de dados empresariais da Capital One. Em sua função, Marty lidera uma equipe responsável por pipelines de dados, serviços de governança de dados e compartilhamento externo de dados. Atuando na Capital One há mais de nove anos, ele ocupou vários cargos de tecnologia em varejo, advertising and marketing, fraude, dados, decisões e arquitetura. Ele é apaixonado por construir uma experiência positiva para o cliente, soluções tecnológicas inovadoras e mentoria.
Itens relacionados:
A ascensão e queda da governança de dados (de novo)
Construindo uma estratégia de governança de dados bem-sucedida