Rockset e Feast Characteristic Retailer para aprendizado de máquina em tempo actual


A latência é importante em aplicativos de aprendizado de máquina. Em cenários de alta latência, a fraude passa despercebida, causando milhões em perdas, as vulnerabilidades de segurança não são controladas, dando aos invasores uma porta aberta, as recomendações não incorporam as interações mais recentes do usuário, tornando-se irrelevantes. O Hack Uber 2022 mostrou ao mundo que as empresas ainda são muito vulneráveis ​​a ataques de engenharia social e que ser capaz de detectar rapidamente comportamentos anômalos, como a verificação de endereços IP, em segundos, em vez de horas, pode fazer toda a diferença.

O aprendizado de máquina (ML) em tempo actual envolve a implantação e manutenção de modelos de aprendizado de máquina para realizar previsões sob demanda para casos de uso como recomendações de produtos, previsão de ETA, detecção de fraudes e muito mais. No ML em tempo actual, a atualização dos recursos, a latência de serviço e o tempo de atividade e disponibilidade do pipeline de dados e do modelo são importantes. Tomar uma decisão tardiamente tem implicações operacionais e de custos.

Para melhor atender ao aprendizado de máquina em tempo actual, o Rockset se integra ao Loja de recursos de festa que atua como uma plataforma centralizada para implantação, monitoramento e gerenciamento de recursos de ML de produção. O characteristic retailer é uma das muitas ferramentas que foram criadas para dar suporte ao envio e aos modelos em produção. Uma área de especialização recentemente denominada MLOps. O objetivo do characteristic retailer é unificar o conjunto de recursos disponíveis para treinamento e atendimento em uma organização. Com armazenamentos de recursos, diferentes equipes são capazes de treinar e implantar recursos padronizados, em vez de ficarem isoladas e gerarem recursos semelhantes por conta própria. Assim como um repositório git permite que uma equipe de engenharia use e modifique o mesmo conjunto de código, um repositório de recursos permite que as pessoas compartilhem e gerenciem o mesmo conjunto de recursos.

Além de padronizar como os recursos são armazenados e gerados, os armazenamentos de recursos também podem ajudar a monitorar seus dados de treinamento. Ao ficar de olho na qualidade dos dados usados ​​para gerar os recursos, você pode adicionar uma nova camada de proteção para evitar o treinamento de um modelo ruim (entra lixo, sai lixo, como dizem).

Aqui estão alguns dos benefícios de adotar uma loja de recursos como a Feast:

  • Gerenciamento de recursos: desduplicar e padronizar recursos em uma organização
  • Computação de recursos: materialize recursos de forma determinística
  • Validação de recursos: execute a validação de recursos para evitar treinamento em dados “inúteis”

Agora você pode pensar “Uau, isso se parece muito com visualizações materializadas. Como os armazenamentos de recursos diferem dos bancos de dados analíticos padrão?” Bem, essa é uma pergunta meio capciosa. Os armazenamentos de recursos ajudam a fornecer orquestração de ML e muitas vezes aproveitam vários bancos de dados para treinamento e exibição de modelos. Aqui estão os benefícios que você obtém ao usar o Rockset como banco de dados para ML em tempo actual:

  • Dados de streaming em tempo actual para ML: Rockset lida com dados de streaming em tempo actual para aprendizado de máquina com separação computação-computaçãoisolando a ingestão de streaming e a computação de consulta para obter desempenho previsível, mesmo diante de gravações de alto quantity e leituras de baixa latência.
  • Transforme eventos em recursos em tempo actual: o Rockset transforma eventos em recursos em tempo actual com transformações de ingestão SQL. Calcule com eficiência recursos de agregação em janelas de tempo, dentro de 1 a 2 segundos após a geração dos dados.
  • Ofereça recursos em tempo actual com latência de milissegundos: Rockset usa seu Índice Convergente para fornecer recursos a aplicativos em milissegundos.
  • Garanta níveis de serviço em escala: o Rockset atende aos rígidos requisitos de latência da análise em tempo actual e foi projetado para alta disponibilidade e durabilidade sem tempo de inatividade programado.

Na demonstração de hoje, veremos como usar o Rockset com o Feast Characteristic Retailer, que é feito sob medida para facilitar o gerenciamento de recursos de aprendizado de máquina.

Saiba mais sobre como a Rockset estende seus recursos analíticos em tempo actual ao aprendizado de máquina. Junte-se ao vice-presidente de engenharia Louis Brandy e ao gerente de produto John Solitario para a palestra Do combate ao spam no Fb à pesquisa vetorial na Rockset: como construir aprendizado de máquina em tempo actual em escala em 17 de maio.

Visão Geral da Integração da Festa


Rockset e Feast Characteristic Retailer para aprendizado de máquina em tempo actual

Rockset como uma loja on-line de recursos para ML em tempo actual com Feast

Feast é uma das lojas de recursos mais populares que existe e é de código aberto e apoiado por Tectona plataforma de recursos para aprendizado de máquina. O Feast fornece a capacidade de treinar modelos em um conjunto consistente de recursos e separa o armazenamento como uma abstração, permitindo que o treinamento do modelo seja portátil. Além de hospedar recursos off-line para treinamento em lote, o Feast também oferece suporte a recursos on-line, para que os usuários possam buscar rapidamente recursos materializados como entrada para um modelo treinado usado para previsão em tempo actual.

Recentemente, a Rockset integrou-se à common Feast Characteristic Retailer de código aberto como uma loja on-line de contribuição comunitária. Rockset é uma ótima opção para servir recursos em produção, pois o banco de dados é desenvolvido especificamente para ingestão em tempo actual e consultas com latência de milissegundos.

Detecção de anomalias em tempo actual com Feast e Rockset

Um caso de uso comum que requer fornecimento de recursos em tempo actual é a detecção de anomalias. Ao detectar anomalias em tempo actual, podem ser tomadas ações imediatas para mitigar riscos e prevenir danos.


Detecção de anomalias em tempo real usando o conjunto de dados de segurança cibernética BETH, Feast e Rockset

Detecção de anomalias em tempo actual usando o conjunto de dados de segurança cibernética BETH, Feast e Rockset

Neste exemplo, dados alguns logs de serviço, queremos ser capazes de extrair recursos rapidamente e canalizá-los para um modelo que gerará uma saída indicando uma probabilidade de ameaça. Mostramos como servir recursos no Rockset usando o Conjunto de dados BETHum conjunto de dados de segurança cibernética com mais de 8 milhões de pontos de dados que foi desenvolvido especificamente para treinamento em detecção de anomalias. Dados benignos e nefastos de atividades de kernel e de rede foram coletados usando um honeypot, neste caso um servidor configurado com ferramentas de monitoramento de baixo nível que permitiam acesso com qualquer chave ssh. Após a coleta de dados, cada evento no conjunto de dados foi rotulado manualmente como “sus” para comportamento incomum ou “mal” para comportamento malicioso. Podemos imaginar treinar um modelo offline neste conjunto de dados e, em seguida, realizar a previsão do modelo em um log de atividades em tempo actual para prever os níveis contínuos de ameaça.

Conecte o Banquete ao Rockset

Primeiro vamos instalar o Feast/Rockset:

Conteúdo incorporado: https://gist.github.com/julie-mills/17b3a0499fcf9ff727aa762a826e2bcd

E então inicialize o repositório do banquete:

Conteúdo incorporado: https://gist.github.com/julie-mills/ba48c3871f53754b35028b9fcd8a72f3

Será solicitada uma chave de API e um URL de host que você pode encontrar no Console Rockset. Alternativamente, você pode deixar em branco e definir as variáveis ​​de ambiente descritas abaixo. Se entrarmos no projeto criado:

Conteúdo incorporado: https://gist.github.com/julie-mills/7f7bd8e3b6ceefcad44f5942241a3811

Nós vamos encontrar o nosso feature_store.yaml arquivo de configuração. Vamos atualizar este arquivo para apontar para nossa conta Rockset. Seguindo a referência da Festa guia para Rockset, preencha o feature_store.yaml arquivo:

Conteúdo incorporado: https://gist.github.com/julie-mills/ee6518f64a60db67f5958bd96cce1654

Se fornecermos informações para os prompts de inicialização anteriores, já deveremos ver nossos valores aqui. Se quisermos atualizar isso, podemos gerar uma chave de API no console Rockset, bem como buscar o URL do endpoint da região (host). Nota: Se api_key ou host em feature_store.yaml for deixado em branco, o driver tentará obter esses valores das variáveis ​​de ambiente locais ROCKSET_APIKEY e ROCKSET_APISERVER.

Gerando recursos para detecção de anomalias em tempo actual

Agora baixe o conjunto de dados de detecção de anomalias para o knowledge/ diretório. Usaremos um dos arquivos para a demonstração, mas as etapas abaixo podem ser aplicadas a todos os arquivos. Existem dois tipos de dados armazenados por este conjunto de dados: chamadas de processo no nível do kernel e tráfego de rede. Vamos analisar as chamadas do processo.

Conteúdo incorporado: https://gist.github.com/julie-mills/364d1e9ad7530f85d2b8b807a431278b

Veja um dos arquivos de dados que baixamos como exemplo:

Conteúdo incorporado: https://gist.github.com/julie-mills/958f5f0027e4fccf8b72c3b227f64a84

Veja todas as chamadas do processo do kernel para análise de segurança:

Conteúdo incorporado: https://gist.github.com/danielin917/e4d2d21b66c873460a58180ba731de8b

Okay, temos os dados importados. Vamos escrever um código que irá gerar recursos interessantes criando um arquivo de definição de recursos anomaly_detection_repo.py. Este arquivo declara entidadesobjetos lógicos descritos por um conjunto de recursos, e visualizações de recursosum grupo de recursos associados a zero ou mais entidades. Você pode ler mais sobre arquivos de definição de recursos aqui. Para nossa configuração de demonstração, usaremos os recursos processName, processId e eventName coletados nos logs do processo do kernel como nossos recursos on-line.

Conteúdo incorporado: https://gist.github.com/julie-mills/e3060b687c8a2a8b5abe13a2ceb261e5

Podemos aplicar definições de recursos recém-escritas salvando-as no repositório usando feast apply.

Servir recursos em milissegundos

No Feast, preencher a loja on-line envolve a materialização ao longo de algum período de tempo a partir da loja offline, onde os valores mais recentes de um recurso serão obtidos. Depois que os recursos materializados forem carregados na loja on-line, poderemos consultá-los no namespace de sua visualização de recursos. Vamos iniciar o Feast Characteristic Server, materializar alguns recursos on-line e consultar! Primeiro, escreva um pequeno script para iniciar o servidor:

Conteúdo incorporado: https://gist.github.com/julie-mills/38e52f50ebd263dd9105e48f4ac077ab

Depois de iniciar nosso script, vamos consultar alguns recursos de entrada que seriam passados ​​para nosso modelo de detecção treinado:

Conteúdo incorporado: https://gist.github.com/julie-mills/bde2635723627d28f5679cfd176d74d6

Resposta:

Conteúdo incorporado: https://gist.github.com/julie-mills/39a0967098992a7ac9686287d20b8f7f

E é isso! Agora podemos servir nossos recursos a partir de visualizações, cada uma apoiada por uma coleção Rockset que pode ser consultada com latência inferior a um segundo.

Aprendizado de máquina em tempo actual com Rockset

Characteristic Shops, incluindo Feast, tornaram-se parte integrante do pipeline de dados de aprendizado de máquina em tempo actual. Com a nova integração do Rockset com o Feast, você pode usar o Rockset como uma loja de recursos on-line e fornecer recursos para personalização em tempo actual, detecção de anomalias, aplicativos de rastreamento logístico e muito mais.

Rockset está atualmente disponível como uma loja on-line para Feast e você pode dar uma olhada no código aqui. Comece com a integração e o aprendizado de máquina em tempo actual com US$ 300 em créditos Rockset gratuitos. Feliz hacking✌️

Rockset adiciona suporte para pesquisa vetorial para personalização em tempo actual, recomendações e detecção de anomalias. Saiba mais sobre como usar a pesquisa vetorial no Weblog Rockset.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *