A arquitetura de dados em movimento da Cloudera é um conjunto abrangente de recursos escaláveis, modulares e recomponíveis que ajudam as organizações a fornecer automação inteligente e produtos de dados em tempo actual com máxima eficiência, ao mesmo tempo em que permanecem ágeis para atender às necessidades de negócios em constante mudança. Neste weblog, examinaremos o “porquê” por trás do streaming de dados e revisaremos algumas diretrizes de alto nível sobre como as organizações devem construir sua arquitetura de dados em movimento do futuro.
Empresas em todos os lugares buscam ser mais orientadas por dados não apenas quando se trata de grandes decisões estratégicas, mas também quando se trata das muitas decisões operacionais de baixo nível que devem ser tomadas todos os dias, todas as horas, todos os minutos e, em muitos casos, todos os segundos. O poder transformador da melhoria incremental no nível operacional foi comprovado muitas vezes. Executar melhor os processos que agregam valor à sua cadeia de valor certamente trará benefícios. Tome um fabricante hipotético como exemplo. No chão de fábrica, inúmeras decisões de baixo nível somam-se à excelência da fabricação, incluindo:
- Gestão de inventário
- Monitoramento da saúde e desempenho do equipamento
- Monitoramento da produção
- Controle de qualidade
- Gestão da cadeia de abastecimento
Não é de se admirar que as empresas estejam trabalhando mais arduamente do que nunca para incorporar dados mais profundamente nas operações. Em 2022, a McKinsey imaginou o Empresa orientada por dados de 2025 onde a dinâmica de mercado do tipo “o vencedor leva tudo” incentiva as organizações a fazerem de tudo e adotarem o ciclo virtuoso de melhoria iterativa. Foi muito revelador que, das sete características destacadas naquele artigo, as duas primeiras são:
- Os dados devem ser incorporados em todas as decisões, interações e processos
- Os dados devem ser processado e entregue em tempo actual
Observe que a McKinsey não está falando sobre a rapidez com que os dados são transmitidos. criada. Eles estão falando sobre dados sendo processados e entregues em tempo actual. Não é a velocidade com que os dados são criados que determina o tempo de resposta de uma organização a um evento crítico, é a rapidez com que eles podem executar um fluxo de trabalho de ponta a ponta e entregar dados processados que determina sua resposta. Um sensor em uma máquina registrando uma vibração, por si só, tem muito pouco valor. O que importa é a rapidez com que esses dados podem ser capturados, processados para colocar essa leitura de vibração dentro do contexto da saúde da máquina, usados para identificar uma anomalia e entregues a uma pessoa ou sistema que pode agir.
As empresas são desafiadas, no entanto, com a transformação de arquiteturas legadas para fornecer dados em tempo actual prontos para uso comercial. Para muitas organizações, a pilha de análise foi construída para consolidar dados transacionais em lotes, geralmente em várias etapas, para relatar os Indicadores-chave de desempenho (KPIs). Eles nunca foram construídos para dados em tempo actual, mas ainda são o principal meio de movimentação e processamento de dados para a maioria das equipes de dados. Para conseguir isso, os dados em tempo actual devem primeiro descansar e esperar para passar pela pilha. Quando estiverem prontos para análise, serão uma visão histórica do que aconteceu, e a oportunidade de agir sobre eventos em tempo actual já passou, reduzindo o valor dos insights.
O número crescente de fontes díspares às quais analistas de negócios e cientistas de dados precisam ter acesso complica ainda mais os esforços. Infelizmente, muitos dados empresariais são subutilizados. Dados subutilizados geralmente levam à perda de oportunidades, pois os dados perdem seu valor ou decaem ao longo do tempo. Por exemplo, 50% das organizações admitem que seus dados perdem valor em poucas horas, e apenas 26% disseram que seus dados de streaming são analisados em tempo actual. Se uma organização está lutando para utilizar dados antes que eles se deteriorem, ele não consegue aproveitar totalmente os dados de alta velocidade nos quais investiu.
Antes de prosseguirmos, vamos esclarecer o que são dados em movimento. Dados em movimento, em termos simples, são dados que não estão em repouso, como dados em armazenamento permanente. Inclui dados que estão transmissão – uma série contínua de eventos discretos que acontecem em um ponto no tempo, como leituras de sensores. Também inclui dados que estão atualmente se movendo pelos sistemas de uma organização. Por exemplo, um registro de tentativas de login sendo enviado de um servidor de autenticação para uma ferramenta de Gerenciamento de Informações e Eventos de Segurança também são dados em movimento. Por outro lado, dados em repouso não estão fazendo muito além de esperar para serem consultados. Dados em movimento são ativo dados que são fluindo.
A arquitetura de dados em movimento é sobre construir a infraestrutura de dados escalável necessária para remover o atrito que pode impedir que dados ativos fluam livremente pela empresa. É sobre construir capacidades estratégicas para tornar os dados em tempo actual um cidadão de primeira classe. Dados em movimento são muito mais do que apenas streaming.
Fornecer insights em tempo actual em escala com a eficiência e agilidade necessárias para competir no ambiente de negócios atual requer mais do que apenas construir pipelines de streaming para mover dados de alta velocidade para uma pilha de análise antiga. Os três elementos-chave de uma arquitetura de dados em movimento são:
- Movimento de dados escalável é a capacidade de pré-processar dados de forma eficiente de qualquer sistema ou dispositivo em um fluxo em tempo actual incrementalmente assim que esses dados forem produzidos. Ferramentas clássicas de Extração, Transformação e Carregamento (ETL) têm essa funcionalidade, mas elas normalmente dependem de lotes ou microlotes em vez de mover os dados incrementalmente. Portanto, elas não são construídas para tempo actual verdadeiro.
- Gerenciamento de fluxo empresarial é a capacidade de gerenciar um intermediário que pode intermediar dados em tempo actual entre qualquer número de fontes de “publicação” e destinos de “assinatura”. Essa capacidade é a espinha dorsal da construção de casos de uso em tempo actual e elimina a necessidade de construir conexões ponto a ponto extensas em toda a empresa. O gerenciamento envolve a utilização de ferramentas para conectar facilmente aplicativos de publicação e assinatura, garantir a qualidade dos dados, rotear dados e monitorar a saúde e o desempenho conforme os fluxos são dimensionados.
- Processamento de fluxo democratizado é a capacidade de especialistas em domínio não codificadores de aplicar transformações, regras ou lógica de negócios a dados de streaming para identificar eventos complexos em tempo actual e acionar fluxos de trabalho automatizados e/ou entregar dados prontos para decisão aos usuários. Essa capacidade converte grandes volumes de dados brutos em dados contextualizados que estão prontos para uso em um processo de negócios. Especialistas em domínio precisam ter acesso para injetar seu conhecimento em dados antes que eles sejam distribuídos pela organização. Uma pilha de análise tradicional normalmente tem essa funcionalidade espalhada em várias etapas ineficientes.
Para transformar as operações comerciais com dados incorporados em cada processo e decisão, uma arquitetura de dados em movimento deve ser capaz de capturar dados de qualquer sistema de origem, processo que os dados dentro do contexto dos processos e decisões que precisam ser tomadas, e distribuir para qualquer número de destinos em tempo actual. À medida que as organizações escalam, os benefícios dos dados em movimento crescem exponencialmente. A marca registrada de uma arquitetura eficaz de dados em movimento é a utilização máxima de dados com latência mínima em toda a organização. Exemplos disso incluem:
- Um pedido que flui por uma organização de comércio eletrônico para fornecer atualizações em tempo actual sobre advertising and marketing, atendimento, cadeia de suprimentos, finanças e atendimento ao cliente, permitindo operações eficientes e encantando os clientes.
- Uma sessão de usuário em uma rede de telecomunicações que flui pela organização e é utilizada por vários processos, incluindo detecção de fraudes, otimização de rede, cobrança, advertising and marketing e atendimento ao cliente.
Com dados em movimento, permitindo o verdadeiro tempo actual, os analistas podem obter dados novos, atualizados e processados, prontos para análise, melhorando a qualidade dos insights e acelerando seu tempo de geração de valor.
Uma arquitetura de dados em movimento fornece esses recursos de uma forma que os torna modificáveis de forma independente. Dessa forma, as organizações podem adotar uma tecnologia que atenda às suas necessidades atuais e continuar a desenvolver sua maturidade de streaming à medida que avançam. Deve ser fácil fazer coisas como integrar um novo fluxo de sensores quando uma linha de produção de manufatura foi adaptada com sensores usando recursos de movimentação de dados para trazer dados para um fluxo existente sem modificar toda a arquitetura. Devemos ser capazes de adicionar novas regras à forma como gerenciamos dados de streaming sem reconstruir a conectividade com o sistema de origem. Da mesma forma, deve ser fácil adicionar nova lógica ao monitoramento em tempo actual para ameaças à segurança cibernética quando identificamos uma nova tática. À medida que a demanda por dados em tempo actual continua a crescer e novas fontes de dados e aplicativos ficam on-line, deve ser fácil dimensionar os componentes necessários de forma independente, sem comprometer o uso eficiente dos recursos. A velocidade com que uma empresa pode fazer alterações na maneira como captura, processa e distribui dados é essencial para a agilidade organizacional.
Capturar, processar e distribuir dados em tempo actual em escala é essencial para desbloquear novas oportunidades de impulsionar a eficiência operacional. A capacidade de fazer isso em escala é a chave para colher maior valor econômico. A capacidade de permanecer ágil é essencial para sustentar a velocidade da inovação. Além disso, o valor da simplicidade arquitetônica não pode ser subestimado. Em um artigo recenteo professor da Harvard Enterprise College e pesquisador de tecnologia Marco Iansiti colaborou com o economista Ruiging Cao para modelar a “coerência da arquitetura de dados” e o benefício em cascata da velocidade de inovação sustentada em uma empresa. Uma arquitetura de dados coerente na definição do professor Iansiti é simples de entender e modificar, e uma que está bem alinhada com os processos de negócios e objetivos mais amplos de transformação digital. O professor Iansiti teoriza que a verdadeira força motriz por trás da velocidade de inovação de muitos nativos digitais não é a cultura, mas sim uma arquitetura de dados coerente que se presta bem a uma abordagem de iteração rápida para otimização de processos de negócios. A redução em ferramentas redundantes e etapas de processo pode ser quantificada em termos de licenciamento, utilização de recursos, impactos de pessoal e sobrecarga administrativa. No entanto, esses benefícios são ofuscados pela velocidade de inovação sustentada necessária para executar melhorias incrementais constantes no nível operacional que as arquiteturas de dados coerentes oferecem.
A abordagem holística da Cloudera para dados em tempo actual foi projetada para ajudar organizações a construir uma arquitetura de dados em movimento que simplifique os processos legados para movimentação de dados à medida que eles são dimensionados.
Pronto para agir? Descubra como um arquitetura de dados em movimento pode ajudar você a melhorar processos críticos e aproveitar ao máximo seus dados.