Estamos felizes em anunciar isso Suporte de Python para pacotes de ativos Databricks agora está disponível em visualização pública! Os usuários do Databricks conseguem autorar há muito tempo lógica de pipeline em python. Com este lançamento, o ciclo de vida completo do desenvolvimento de pipeline – incluindo a orquestração e a programação – agora pode ser definida e implantada inteiramente em Python. Os pacotes de ativos da Databricks (ou “pacotes”) fornecem uma abordagem estruturada de código primeiro para definir, versionar e implantar pipelines em ambientes. O suporte nativo do Python aprimora a flexibilidade, promove a reutilização e melhora a experiência de desenvolvimento para equipes que preferem o Python ou requerem configuração dinâmica em vários ambientes.
Padronizar implantações de emprego e pipeline em escala
As equipes de engenharia de dados que gerenciam dezenas ou centenas de oleodutos geralmente enfrentam desafios para manter práticas de implantação consistentes. As operações de escala introduzem a necessidade de controle de versão, validação de pré-produção e a eliminação da configuração repetitiva entre os projetos. Tradicionalmente, esse fluxo de trabalho exigia manter grandes arquivos YAML ou executar atualizações manuais através da interface do usuário do Databricks.
O Python melhora esse processo, permitindo a configuração programática de trabalhos e pipelines. Em vez de editar manualmente os arquivos YAML estáticos, as equipes podem definir a lógica uma vez no Python, como definir clusters padrão, aplicar tags ou aplicar convenções de nomenclatura e aplicá -lo dinamicamente em várias implantações. Isso reduz a duplicação, aumenta a manutenção e permite que os desenvolvedores integrem definições de implantação nos fluxos de trabalho baseados em Python existentes e nos pipelines de CI/CD mais naturalmente.
“A configuração declarativa e a integração de bancos de dados nativos tornam as implantações simples e confiáveis. Os mutadores são um destaque, eles nos permitem personalizar trabalhos programaticamente, como inadimplência de auto-marcação ou definição. Estamos entusiasmados ao ver os dabs se tornarem o padrão para implantação e muito mais”.
– Tom Potash, gerente de engenharia de software program da DoubleVifify
Implantações movidas a Python para pacotes de ativos de dados
A adição de suporte Python para Databricks Pacotes de ativos simplifica o processo de implantação. Trabalhos e oleodutos agora podem ser totalmente definidos, personalizados e gerenciados em Python. Embora a integração de IC/CD com pacotes sempre esteja disponível, o uso do Python simplifica a criação de configurações complexas, reduz a duplicação e permite que as equipes padronizem as melhores práticas programaticamente em diferentes ambientes.
Usando o Ver como código Recurso em empregos que você também pode copiar colar diretamente para o seu projeto (Saiba mais aqui):
Capacidades avançadas: geração programática de trabalho e personalização
Como parte deste lançamento, apresentamos o load_resources
Função, que é usada para criar programaticamente trabalhos usando metadados. O Databricks CLI chama essa função Python durante a implantação para carregar trabalhos e pipelines adicionais (Saiba mais aqui).
Outra capacidade útil é o mutator
padrão, que permite validar configurações de pipeline e atualizar definições de trabalho dinamicamente. Com os mutadores, você pode aplicar configurações comuns, como notificações padrão ou configurações de cluster sem definições repetitivas de YAML ou Python:
Saiba mais sobre mutadores aqui.
Comece
Mergulhe no suporte do Python para os pacotes de ativos do Databricks hoje! Explorar a documentação para Databricks Pacotes de ativos bem como para Suporte de Python para pacotes de ativos Databricks. Estamos empolgados em ver o que você constrói com esses novos novos recursos. Valorizamos seus comentários, então compartilhe suas experiências e sugestões conosco!