Melhores práticas: iniciando os fluxos de trabalho do Databricks nativamente na fábrica de dados do Azure


O Azure Databricks é um serviço da Microsoft de primeira parte, integrado nativamente ao ecossistema do Azure para unificar dados e IA com análise de alto desempenho e suporte de ferramentas profundas. Essa integração rígida agora inclui uma atividade de trabalho de Databricks nativa na Azure Information Information Manufacturing facility (ADF), facilitando o que nunca aciona os fluxos de trabalho do Databricks diretamente no ADF.

Essa nova atividade no ADF é uma prática recomendada imediata, e todos os usuários do ADF e do Azure Databricks devem considerar mudar para esse padrão.

O novo Trabalho de banco de dados A atividade é muito simples de usar:

  1. No seu pipeline do ADF, arraste o Trabalho de banco de dados atividade na tela
  2. Na guia Azure Databricks, selecione um serviço vinculado ao Databricks para autenticação ao Azure Databricks Workspace
    • Você pode autenticar usando uma dessas opções:
      • um token de pat
      • o sistema ADF atribuído identidade gerenciada, ou
      • um usuário atribuído identidade gerenciada
    • Embora o serviço vinculado exija que você configure um cluster, este cluster é Nem criado nem usado Ao executar esta atividade. É retido para compatibilidade com outros tipos de atividade

Melhores práticas: iniciando os fluxos de trabalho do Databricks nativamente na fábrica de dados do Azure

3. Na guia Configurações, selecione um fluxo de trabalho do Databricks para executar na lista suspensa de trabalho (você verá apenas os trabalhos aos quais seu diretor autenticado tem acesso). Na seção Parâmetros de trabalho abaixo, configure os parâmetros do trabalho (se houver) para enviar ao fluxo de trabalho do Databricks. Para saber mais sobre os parâmetros de trabalho dos Databricks, verifique o documentos.

  • Observe que os parâmetros de trabalho e trabalho podem ser configurados com conteúdo dinâmico

Parâmetro do trabalho

Isso é tudo o que há para isso. O ADF iniciará o fluxo de trabalho do Databricks e devolverá o ID e o URL do trabalho. O ADF então pesquisará o trabalho para concluir. Leia mais abaixo para saber por que esse novo padrão é um clássico instantâneo.

gif pbi

Iniciando os fluxos de trabalho do Databricks do ADF permitem obter mais potência do seu investimento do Azure Databricks

O uso do Azure Information Manufacturing facility e o Azure Databricks juntos tem sido um padrão de GA desde 2018, quando foi lançado com isso Postagem do weblog. Desde então, a integração tem sido um merchandise básico para os clientes do Azure que acompanham principalmente esse padrão simples:

  1. Use o ADF para aterrar dados no armazenamento do Azure por meio de seus mais de 100 conectores usando um tempo de execução de integração auto-hospedado para conexões privadas ou no native
  2. Orquestrato de notebooks de Databricks através da atividade de notebooks de Databricks nativos para implementar a transformação de dados escaláveis ​​em bancos de dados usando as mesas do lago Delta em ADLs

Embora esse padrão tenha sido extremamente valioso ao longo do tempo, ele restringiu os clientes aos seguintes modos de operação, que os roubam do valor complete dos Databricks:

  • Usando todos os objetivos calcular para executar trabalhos para impedir os tempos de lançamento do cluster -> Encontre problemas barulhentos de vizinhos e pagando por todos os fins, calcular para trabalhos automatizados
  • Aguardando lançamentos de cluster por execução do pocket book Ao usar a computação de empregos -> clusters clássicos são divulgados por execução de notebooks, incorrendo tempo de lançamento do cluster para cada um, mesmo para um noteleiro de notebooks
  • Gerenciando piscinas para reduzir os tempos de lançamento do cluster de empregos -> Swimming pools podem ser difíceis de gerenciar e geralmente podem levar ao pagamento de VMs que não estão sendo utilizadas
  • Usando um padrão de permissões excessivamente permissivas para integração entre o ADF e o Azure Databricks -> A integração requer administrador de espaço de trabalho ou o direito a criação de cluster
  • Nenhuma capacidade de usar novos recursos em bancos de dados como Databricks SQL, DLT ou sem servidor sem servidor

Embora esse padrão seja escalável e nativo do Azure Information Manufacturing facility e do Azure Databricks, as ferramentas e os recursos que oferecem permaneceram os mesmos desde o seu lançamento em 2018, mesmo que o Databricks tenha cultivado saltos e barrancos na plataforma de inteligência de dados líderes de mercado em todas as nuvens.

O Azure Databricks vai além da análise tradicional para fornecer uma plataforma unificada de inteligência de dados no Azure. Ele combina a arquitetura Lakehouse líder do setor com a IA embutida e a governança avançada para ajudar os clientes a desbloquear insights mais rapidamente, a menor custo e com a segurança da qualidade corporativa. Os principais recursos incluem:

  • OSS e padrões abertos
  • Um catálogo de Lakehouse líder da indústria através do Catálogo de Unidades para proteger dados e IA entre códigos, idiomas e calcular dentro e fora dos Databricks do Azure
  • Melhor desempenho da categoria e desempenho de preço para ETL
  • Recursos internos para ML tradicional e Genai, incluindo LLMs de ajuste fino, usando modelos fundamentais (incluindo Sonnet Claude), aplicações de agentes de construção e modelos de servir
  • Melhor DW da categoria na casa com Databricks SQL
  • Publicação e integração automatizadas com Energy BI por meio da publicação para poder funcionalidade de BI encontrada no catálogo de unidades e fluxos de trabalho

Com a liberação da atividade de trabalho de Databricks nativa na fábrica de dados do Azure, os clientes agora podem executar fluxos de trabalho dos Databricks e transmitir parâmetros para os trabalhos executados. Esse novo padrão não apenas resolve as restrições destacadas acima, mas também permite o uso dos seguintes recursos em bancos de dados que foram não Anteriormente disponível em ADF como:

  • Programando uma DAG de tarefas dentro dos bancos de dados
  • Usando o Databricks SQL integrações
  • Executando pipelines DLT
  • Usando a integração DBT com um armazém SQL
  • Usando a reutilização clássica de cluster de emprego para reduzir os tempos de lançamento do cluster
  • Usando trabalhos sem servidor computam
  • Funcionalidade padrão do fluxo de trabalho dos bancos de dados, como execução, valores de tarefas, execuções condicionais como se/else e para cada uma, ai/bi, execução de reparo, notificações/alertas, integração do Git, suporte a dabs, linhagem interna, filas e execuções concorrentes e muito mais …

Mais importante ainda, os clientes agora podem usar a atividade de trabalho do Databricks do ADF para alavancar o Publique para Energy BI Duties in Databricks Fluxos de trabalhoque publicará automaticamente modelos semânticos no serviço Energy BI de esquemas em catálogo de unidades e desencadeará uma importação se houver tabelas com modos de armazenamento usando importação ou duplo (Instruções de configuração documentação). Uma demonstração sobre tarefas de Energy BI nos fluxos de trabalho dos Databricks pode ser encontrada aqui. Para complementar isso, confira o Energy BI on Databricks Greatest Practices Folha de Cheatra – Um guia conciso e acionável que ajuda as equipes a configurar e otimizar seus relatórios para desempenho, custo e experiência do usuário desde o início.

tarefa do PBI

Publique a tarefa do PBI
A atividade de trabalho do Databricks no ADF é a nova prática recomendada

Usando o Trabalho de banco de dados Atividade na fábrica de dados do Azure para iniciar os fluxos de trabalho do Databricks é a nova integração de melhores práticas ao usar as duas ferramentas. Os clientes podem começar imediatamente a usar esse padrão para aproveitar todos os recursos na plataforma de inteligência de dados Databricks. Para clientes que usam o ADF, usando o ADF Trabalho de banco de dados A atividade resultará em valor comercial imediato e economia de custos. Clientes com estruturas ETL que estão usando atividades de pocket book devem migrar suas estruturas para usar os fluxos de trabalho do Databricks e o novo ADF Trabalho de banco de dados atividade e priorize essa iniciativa em seu roteiro.

Comece com um Teste grátis de 14 dias de Databricks do Azure.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *