Acelere a engenharia de recursos com o Photon


Treinar um modelo de aprendizado de máquina de alta qualidade requer dados cuidadosos e preparação de recursos. Para utilizar totalmente os dados brutos armazenados como tabelas no Databricks, pode ser necessário executar pipelines ETL e engenharia de recursos para transformar os dados brutos em tabelas de recursos úteis. Se sua tabela for grande, esta etapa pode ser muito demorada. Estamos felizes em anunciar que o Photon Engine agora pode ser habilitado no Databricks Machine Studying Runtime, capaz de acelerar trabalhos de faísca e cargas de trabalho de engenharia de recursos em 2x ou mais.

Acelere a engenharia de recursos com o Photon

“Ao habilitar o Photon e usar uma nova junção PIT, o tempo necessário para gerar o conjunto de dados de treinamento usando nosso Function Retailer foi reduzido em mais de 20 vezes.” – Sem Sinchenko, Superior Analytics Professional Information Engineer, Raiffeisen Financial institution Worldwide AG

O que é Photon?

O motor de fótons é um mecanismo de consulta de alto desempenho que pode executar Spark SQL e Spark DataFrame mais rapidamente, reduzindo o custo complete por carga de trabalho. Por baixo dos panos, o Photon é implementado com C++, e unidades de execução Spark específicas são substituídas pela implementação do mecanismo nativo do Photon.

Como o Photon ajuda nas cargas de trabalho de aprendizado de máquina?

Agora que o Photon pode ser habilitado no Databricks Machine Studying Runtime, quando faz sentido integrar um cluster habilitado para Photon para fluxos de trabalho de desenvolvimento de machine studying? Aqui estão algumas das principais considerações:

  1. ETL mais rápido: O Photon acelera as cargas de trabalho do Spark SQL e do Spark DataFrame para preparação de dados. Os primeiros clientes do Photon observaram uma média aceleração de 2x-4x para suas consultas SQL.
  2. Engenharia de recursos mais rápida: Ao usar a API Python de engenharia de recursos do Databricks para tabelas de recursos de séries temporais, a junção de ponto no tempo se torna mais rápida quando o Photon está habilitado.

Engenharia de recursos mais rápida com Photon

A biblioteca Databricks Function Engineering implementou uma nova versão de junção de ponto no tempo para dados de séries temporais. A nova implementação, que foi inspirada por uma sugestão de Semyon Sinchenko do cliente Databricks Raiffeisen Financial institution Worldwide, usa Spark nativo em vez da biblioteca Tempo, tornando-a mais escalável e robusta do que a versão anterior. Além disso, a implementação nativa do Spark se beneficia enormemente do Photon Engine. Quanto maiores as tabelas, mais melhorias o Photon pode trazer.

  • Ao unir uma tabela de recursos de 10 milhões de linhas (10 mil IDs exclusivos, com 1.000 carimbos de knowledge/hora por ID) com uma tabela de rótulos (100 mil IDs exclusivos, com 100 carimbos de knowledge/hora por ID), o Photon acelera a junção de ponto no tempo em 2,0x
  • Ao unir uma tabela de recursos de 100 milhões de linhas (100 mil IDs exclusivos), o Photon acelera a junção de ponto no tempo em 2,1x
  • Ao unir uma tabela de recursos de 1B linhas (1M IDs exclusivos), o Photon acelera a junção de ponto no tempo em 2,4x

Tabela de recursos de fótons

A figura acima compara o tempo de execução da junção de tabelas de recursos de 3 tamanhos diferentes com a mesma tabela de rótulos. Cada experimento foi realizado em um cluster AWS do Databricks com um tipo de instância r6id.xlarge e um nó de trabalho. A configuração foi repetida cinco vezes para calcular o tempo médio de execução.

Selecione Photon no cluster Databricks Machine Studying Runtime

O desempenho de consulta do Photon e a infraestrutura de IA pré-construída do Databricks ML Runtime tornam mais rápido e fácil construir modelos de machine studying. A partir do Databricks Machine Studying Runtime 15.2 e superior, os usuários podem criar um cluster do ML Runtime com o Photon selecionando “Use Photon Acceleration”. Enquanto isso, a versão nativa do Spark do point-in-time be a part of vem com o ML Runtime 15.4 LTS e superior.

Cluster de tempo de execução de ML

Para saber mais sobre o Photon e a engenharia de recursos com o Databricks, consulte as seguintes páginas de documentação para obter mais informações.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *