
Tristan Helpful na conferência Coalesce em San Diego, 23 de outubro
Embora tenha havido progresso actual na simplificação de alguns aspectos dos fluxos de trabalho de análise de large information, ainda há muita fita adesiva para manter tudo sob controle, de acordo com Tristan Helpful, fundador e CEO do dbt Labs, que revelou hoje uma série de melhorias no dbt Cloud em sua conferência anual de usuários.
O Dbt emergiu como uma das ferramentas mais populares para preparar dados para análise. Em vez de escrever código SQL bruto, os engenheiros de dados escrevem a sintaxe do dbt para criar modelos que definem as transformações de dados que precisam ser executadas, respeitando as dependências acima e abaixo da pilha. Em tempo de execução, um usuário dbt chama um modelo ou uma série de modelos para executar uma transformação de maneira declarativa definida. É a disciplina DevOps que se encontra com a engenharia de dados, ou DataOps.
A abordagem DataOps do dbt repercutiu em milhões de trabalhadores que usam dbt, ou engenheiros analíticos, como Laboratórios DBT gosta de ligar para eles. Quando as transformações de dados são codificadas em dbt, elas trazem outros benefícios, como menos linhas de código, documentação automatizada, linhagem visible e notificações de quebra de pipeline.
No entanto, mesmo com esses benefícios de dados em mãos, isso não significa que resolvemos todos os problemas de dados, diz Helpful.
“A indústria de dados fez progressos reais em direção à maturidade na última década”, disse Helpful num comunicado de imprensa. “Mas os problemas reais persistem. Dados isolados. Falta de confiança. Muita ‘fita adesiva’ em nossos sistemas operacionais.”
Helpful elaborou seus pensamentos em uma postagem no weblog no mês passado.
“Podemos observar a partir dos dados de instrumentação de produtos dbt que a grande maioria das empresas que fazem a transição para a nuvem adota pelo menos alguns elementos de um fluxo de trabalho analítico maduro – particularmente relacionado às transformações de dados. Mas e as outras camadas da pilha de análise?” ele escreveu.
Existem pontos críticos nessas outras camadas, diz ele. Por exemplo, Helpful pergunta se notebooks e painéis são bem testados e têm SLAs comprováveis. “Seus pipelines de ingestão têm controle de versão claro? Eles têm processos para reverter alterações de esquema? Eles suportam vários ambientes?”
“Os consumidores de dados podem solicitar suporte e declarar incidentes diretamente dos sistemas analíticos com os quais interagem?” ele pergunta. “Você tem rodízios de plantão? Você tem um processo de gerenciamento de incidentes bem definido? A resposta a essas perguntas, para quase todas as empresas, é ‘não’”, escreve ele.
Embora seja improvável que qualquer empresa ou produto possa fornecer todos esses recursos, o pessoal da dbt Labs está tentando preencher as lacunas e arrancar a fita adesiva. Para esse fim, o dbt Labs anunciou hoje uma série de melhorias no dbt Cloud, sua oferta empresarial para profissionais de análise. A empresa afirma que essas melhorias representam a visão “One dbt” de criar uma experiência única de dbt em várias personas e plataformas de dados como parte do que chama de ciclo de vida de desenvolvimento analítico, ou ADLC.
A empresa revelou hoje várias melhorias no dbt Cloud que, segundo ela, ajudarão os clientes a construir melhores pipelines de dados. Isso inclui o dbt Copilot, que automatizará o trabalho guide repetitivo em torno de coisas como criação de testes, redação de documentação e criação de modelos semânticos. O Dbt Labs também está construindo um chatbot que permite aos usuários fazer perguntas sobre seus dados usando linguagem pure.
O Dbt Labs está se baseando na malha de dados lançada no Coalesce do ano passado, que permitiu referências de dbt entre projetos, com uma nova malha entre plataformas. A nova oferta usa Apache Iceberg para criar tabelas de dados portáteis que podem ser lidas em diferentes plataformas. Os benefícios incluem a capacidade de definir e manter centralmente padrões de governança de dados, ver a linhagem ponta a ponta em várias plataformas de dados e encontrar, referenciar e reutilizar ativos de dados existentes em vez de reconstruí-los, diz dbt Labs.
Os clientes do Dbt Cloud também estão obtendo um novo ambiente de baixo código e arrastar e soltar para construir e explorar modelos dbt. A empresa afirma que este novo ambiente (que está atualmente em beta) permitirá que um novo grupo de usuários menos técnicos desenvolvam eles próprios códigos analíticos.
Será mais fácil detectar bugs no código dbt antes de entrarem em produção usando a nova oferta Superior CI (integração contínua). O Dbt Labs afirma que o Superior CI tornará mais fácil para os usuários comparar alterações de código como parte do processo de CI e detectar qualquer comportamento inesperado antes que o novo código seja mesclado na produção. “Isso melhora a qualidade do código e ajuda as organizações a otimizar os gastos com computação materializando apenas modelos corretos”, afirma a empresa.
Outras melhorias que o dbt Labs está fazendo no dbt Cloud incluem:
- Blocos de integridade de dados que podem ser incorporados em qualquer aplicativo downstream para fornecer informações em tempo actual sobre seus dados, incluindo atualização e qualidade, diretamente nas ferramentas onde os usuários trabalham;
- Exposições automáticas com Tableau, um novo recurso que incorpora automaticamente painéis do Tableau na linhagem dbt, aumentando a atualização dos dados;
- Integração da camada semântica com Energy BI;
- Novos adaptadores compatíveis, incluindo Teradata (visualização) e AWS Athena (GA).
Itens relacionados:
IA impactando a engenharia de dados mais rápido do que o esperado, afirma Helpful do dbt Labs
A visão audaciosa de Tristan Helpful sobre o futuro da engenharia de dados
A camada semântica pertence ao middleware e o dbt deseja entregá-la