Uma estrutura para previsão de múltiplos modelos em Databricks


Introdução

A previsão de séries temporais serve como base para o gerenciamento de estoque e demanda na maioria das empresas. Usando dados de períodos passados ​​junto com condições antecipadas, as empresas podem prever receitas e unidades vendidas, permitindo que elas aloquem recursos para atender à demanda esperada. Dada a natureza basic deste trabalho, as empresas estão constantemente explorando maneiras de melhorar a precisão da previsão, permitindo que elas coloquem apenas os recursos certos no lugar certo na hora certa, ao mesmo tempo em que minimizam os compromissos de capital.

O desafio para a maioria das organizações é a ampla gama de técnicas de previsão à disposição. Técnicas estatísticas clássicas, modelos aditivos generalizados, aprendizado de máquina e abordagens baseadas em aprendizado profundo e agora transformadores de IA generativos pré-treinados fornecem às organizações um número esmagador de escolhas, algumas das quais funcionam melhor em alguns cenários do que em outros.

Enquanto a maioria dos criadores de modelos alegam precisão de previsão melhorada em relação aos conjuntos de dados de base, a realidade é que o conhecimento do domínio e os requisitos de negócios normalmente reduzem o número de opções de modelo a algumas poucas e, então, somente a aplicação prática e a avaliação em relação aos conjuntos de dados de uma organização podem determinar qual tem melhor desempenho. E o que é “melhor” geralmente varia de unidade de previsão para unidade de previsão e até mesmo ao longo do tempo, forçando as organizações a realizar avaliações comparativas contínuas entre técnicas para determinar o que funciona melhor no momento.

Neste weblog, apresentaremos a estrutura Previsão de Muitos Modelos (MMF) para a avaliação comparativa de modelos de previsão. O MMF permite que os usuários treinem e prevejam usando vários modelos de previsão em escala em centenas de milhares a muitos milhões de séries temporais em sua melhor granularidade. Com suporte para preparação de dados, backtesting, validação cruzada, pontuação e implantação, a estrutura permite que as equipes de previsão implementem uma solução completa de geração de previsão usando modelos clássicos e de última geração com ênfase na configuração em vez da codificação, minimizando o esforço necessário para introduzir novos modelos e recursos em seus processos. Descobrimos em inúmeras implementações de clientes esta estrutura:

  1. Reduz o tempo de colocação no mercado: Com muitos modelos bem estabelecidos e de ponta já integrados, os usuários podem avaliar e implantar soluções rapidamente.
  2. Melhora a precisão da previsão: Por meio de avaliação abrangente e seleção de modelos detalhados, o MMF permite que as organizações descubram com eficiência abordagens de previsão que fornecem maior precisão.
  3. Permite prontidão para produção: Ao aderir às melhores práticas de MLOps, o MMF integra-se nativamente ao Databricks Mosaic AI, garantindo uma implantação perfeita.

Acesse mais de 40 modelos usando o Framework

O framework Many Mannequin Forecasting (MMF) é entregue como um repositório Github com código-fonte totalmente acessível, transparente e comentado. As organizações podem usar o framework como ele está ou estendê-lo para adicionar funcionalidades necessárias para sua organização específica.

O MMF inclui suporte integrado para mais de 40 modelos por meio da integração de algumas das bibliotecas de previsão de código aberto mais populares disponíveis hoje, incluindo estatísticasprevisão, previsão neural, tempo de esqui, fábula r, Cronos, moiraie momento. E à medida que nossos clientes exploram modelos mais novos, pretendemos oferecer suporte a ainda mais.

Com esses modelos já integrados à estrutura, os usuários podem eliminar o desenvolvimento redundante de preparação de dados e treinamento de modelo específico para cada modelo e, em vez disso, focar na avaliação e implantação, acelerando significativamente o tempo de comercialização. Isso é particularmente vantajoso para equipes de cientistas de dados e engenheiros de aprendizado de máquina com recursos limitados e partes interessadas do negócio ansiosas por resultados.

Usando o MMF, as equipes de previsão podem avaliar vários modelos simultaneamente, permitindo que a lógica interna e personalizada selecione o melhor modelo para cada série temporal e aprimorando a precisão geral da solução de previsão. Implantado em um cluster Databricks, o MMF aproveita todos os recursos disponibilizados para acelerar o treinamento e a avaliação do modelo por meio de paralelismo automatizado. As equipes simplesmente configuram os recursos que desejam usar para o exercício de previsão e o MMF cuida do resto.

Foco em saídas de modelos e avaliações comparativas

A chave para o MMF é a padronização das saídas do modelo. Ao executar previsões, o MMF gera duas tabelas UC: evaluation_output e scoring_output. A tabela evaluation_output (Figura 1) armazena todos os resultados de avaliação de cada período de backtesting, em todas as séries temporais e modelos, fornecendo uma visão geral abrangente do desempenho de cada modelo. Isso inclui previsões junto com os reais, permitindo que os usuários construam métricas personalizadas que se alinham com as necessidades comerciais específicas. Embora o MMF ofereça várias métricas prontas para uso, como MAE, MSE, RMSE, MAPE e SMAPE, a flexibilidade para criar métricas personalizadas facilita a avaliação detalhada e a seleção ou montagem de modelos, garantindo resultados de previsão ideais.

Uma estrutura para previsão de múltiplos modelos em Databricks
Figura 1. Resultados da avaliação capturados automaticamente na tabela evaluation_ouput pelo MMF

A segunda tabela, scoring_output (Figura 2), contém previsões para cada série temporal de cada modelo. Usando os resultados abrangentes de avaliação armazenados na tabela evaluation_output, você pode selecionar previsões do modelo de melhor desempenho ou de uma combinação de modelos. Ao escolher as previsões finais de um conjunto de modelos concorrentes ou conjunto de modelos selecionados, você pode obter precisão e estabilidade superiores em comparação a confiar em um único modelo, aumentando assim a precisão e a estabilidade gerais de sua solução de previsão em larga escala.

Figura 2. Saída de previsão capturada automaticamente na tabela scoring_output pelo MMF
Figura 2. Saída de previsão capturada automaticamente na tabela scoring_output pelo MMF

Facilite o gerenciamento de modelos por meio da automação

Construído na plataforma Databricks, o MMF integra-se perfeitamente com seus recursos de IA Mosaic, fornecendo registro automatizado de parâmetros, métricas agregadas e modelos (para modelos globais e de base) para Fluxo de ML (Figura 3). Protegido como parte do Databricks’ Catálogo Unityas equipes de previsão podem empregar controle de acesso detalhado e gerenciamento adequado de seus modelos, não apenas de sua saída do modelo.

Figura 3. Registro automatizado de modelos fornecido pelo MMF e MLFlow
Figura 3. Registro automatizado de modelos fornecido pelo MMF e MLFlow

Caso uma equipe exact reutilizar um modelo (como é comum em cenários de aprendizado de máquina), eles podem simplesmente carregá-los em seu cluster usando o MLflow modelo_de_carga método ou implantá-los atrás de um ponto de extremidade em tempo actual usando Modelo de IA do Mosaic Databricks servindo (Figura 4). Com modelos de base de séries temporais hospedados no Mannequin Serving, você pode gerar previsões multietapas à frente a qualquer momento, desde que forneça o histórico na resolução correta. Esse recurso aprimora significativamente os aplicativos em previsão sob demanda, monitoramento em tempo actual e rastreamento.

Figura 4. Um ponto de extremidade de amostra que fornece geração de saída de previsão em tempo real a partir de um modelo hospedado no serviço de modelo
Figura 4. Um ponto de extremidade de amostra que fornece geração de saída de previsão em tempo actual a partir de um modelo hospedado no serviço de modelo

Comece agora

Na Databricks, a geração de previsões é um dos casos de uso mais populares do cliente. A natureza basic da previsão para tantos processos de negócios significa que as organizações estão constantemente buscando melhorias na precisão das previsões.

Com esta estrutura, esperamos fornecer às equipes de previsão acesso fácil à funcionalidade mais escalável, robusta e extensa necessária para dar suporte ao seu trabalho. Por meio do MMF, as equipes agora podem se concentrar em gerar resultados e menos em todo o trabalho de desenvolvimento necessário para avaliar novas abordagens e colocá-las em prontidão para produção.

Agradecimentos

Agradecemos às equipes por trás do statsforecast e do neuralforecast (Nixtla), r fable, sktime, chronos, moirai, second e timesfm por suas contribuições às comunidades de código aberto, que nos forneceram acesso às suas excelentes ferramentas.

Confira a Repositório MMF e cadernos de amostra mostrando como as organizações podem começar a usá-lo em seu ambiente Databricks.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *