
(Treecha/Shutterstock)
Monte Carlo tornou-se conhecido no campo da observabilidade de dados, onde utiliza aprendizado de máquina e outros métodos estatísticos para identificar problemas de qualidade e confiabilidade ocultos em large knowledge. Com a atualização desta semana, feita durante o evento IMPACT 2024, a empresa está adotando IA generativa para ajudá-la a levar suas capacidades de observabilidade de dados a um novo nível.
Quando se trata de observabilidade de dados, ou qualquer tipo de disciplina de observabilidade de TI, não existe uma solução mágica (ou modelo de ML) que possa detectar todas as possíveis maneiras pelas quais os dados podem ficar danificados. Há um enorme universo de possíveis maneiras pelas quais as coisas podem dar errado, e os engenheiros precisam ter alguma ideia do que procuram para construir as regras que automatizam os processos de observabilidade de dados.
É aí que as novas recomendações do GenAI Monitor que Monte Carlo anunciado ontem pode fazer a diferença. Em suma, a empresa está usando um modelo de linguagem grande (LLM) para pesquisar as inúmeras maneiras pelas quais os dados são usados no banco de dados de um cliente e, em seguida, recomendando alguns monitores específicos, ou regras de qualidade de dados, para ficar de olho neles.
Veja como funciona: No componente Information Profiler da plataforma Monte Carlo, dados de amostra são alimentados no LLM para analisar como o banco de dados é usado, especificamente os relacionamentos entre as colunas do banco de dados. O LLM usa este exemplo, bem como outros metadados, para construir uma compreensão contextual do uso actual do banco de dados.
Embora os modelos clássicos de ML tenham um bom desempenho na detecção de anomalias em dados, como atualização de tabelas e problemas de quantity, os LLMs são excelentes na detecção de padrões nos dados que são difíceis, senão impossíveis, de descobrir usando ML tradicional, diz Lior Gavish, cofundador da Monte Carlo e CTO.
“A força do GenAI reside na compreensão semântica”, diz Gavish BigDATAwire. “Por exemplo, ele pode analisar padrões de consulta SQL para entender como os campos são realmente usados na produção e identificar relacionamentos lógicos entre os campos (como garantir que uma ‘data_inicial’ seja sempre anterior a uma ‘data_final). Essa capacidade de compreensão semântica vai além do que period possível com abordagens tradicionais de ML/DL.”
A nova capacidade tornará mais fácil para funcionários técnicos e não técnicos criarem regras de qualidade de dados. Monte Carlo usou o exemplo de um analista de dados de um time profissional de beisebol para criar rapidamente regras para uma tabela “pitch_history”. Há claramente uma relação entre a coluna “pitch_type” (bola rápida, bola curva, and so on.) e a velocidade do arremesso. Com o GenAI integrado, Monte Carlo pode recomendar automaticamente regras de qualidade de dados que façam sentido com base no histórico da relação entre essas duas colunas, ou seja, a “bola rápida” deve ter velocidades de arremesso superiores a 130 km/h, diz a empresa.
Como mostra o exemplo de Monte Carlo, existem relações intrincadas enterradas em dados que os modelos tradicionais de ML teriam dificuldade em descobrir. Apoiando-se nas habilidades de compreensão humanas de um LLM, Monte Carlo pode começar a mergulhar nessas relações de dados difíceis de encontrar para encontrar intervalos aceitáveis de valores de dados, que é o benefício actual que isso traz.
De acordo com Gavish, Monte Carlo está usando Antrópico Modelo Claude 3.5 Sonnet/Haiku em execução AWS. Para minimizar as alucinações, a empresa implementou uma abordagem híbrida em que as sugestões do LLM são validadas em relação a dados reais de amostra antes de serem apresentadas aos usuários, diz ele. O serviço é totalmente configurável, diz ele, e os usuários podem desativá-lo se quiserem.

Monte Carlo está usando um LLM para identificar automaticamente relações entre campos de dados que os humanos perceberiam imediatamente, como tipo de pitch e velocidade (imagem cortesia de Monte Carlo)
Graças à sua capacidade semelhante à humana de compreender o significado semântico e gerar respostas precisas, a tecnologia GenAI tem o potencial de transformar muitas tarefas de gestão de dados que são altamente dependentes da percepção humana, incluindo a gestão da qualidade dos dados e a observabilidade. No entanto, nem sempre ficou claro exatamente como tudo isso acontecerá. Monte Carlo tem falei no passado sobre como seu software program de observabilidade de dados pode ajudar a garantir que os aplicativos GenAI, incluindo os fluxos de trabalho de geração aumentada de recuperação (RAG), sejam alimentados com dados de alta qualidade. Com o anúncio desta semana, a empresa mostrou que a GenAI pode desempenhar um papel no próprio processo de observabilidade de dados.
“Vimos uma oportunidade de combinar uma necessidade actual do cliente com uma nova e excitante tecnologia de IA generativa, para fornecer uma maneira para que eles criem, implantem e operacionalizem rapidamente regras de qualidade de dados que acabarão por reforçar a confiabilidade de seus dados e produtos de IA mais importantes. ”, disse Barr Moses, CEO e cofundador da Monte Carlo, em um comunicado de imprensa.
Monte Carlo fez algumas outras melhorias em sua plataforma de observabilidade de dados durante seu Cúpula de Observabilidade de Dados IMACT 2024que aconteceu esta semana. Para começar, lançou um novo painel de operações de dados projetado para ajudar os clientes a acompanhar suas iniciativas de qualidade de dados. De acordo com Gavish, o novo painel fornece uma visão centralizada da observabilidade de vários dados a partir de um único painel de vidro.
“O Information Operations Dashboard fornece às equipes de dados dados que podem ser escaneados sobre onde os incidentes estão acontecendo, por quanto tempo eles persistem e como os proprietários dos incidentes estão se saindo no gerenciamento dos incidentes sob sua própria alçada”, diz Gavish. “Aproveitar o painel permite que os líderes de dados façam coisas como identificar pontos críticos de incidentes, falhas na adoção de processos, áreas dentro da equipe onde os padrões de gerenciamento de incidentes não estão sendo atendidos e outras áreas de melhoria operacional.”
Monte Carlo também reforçou seu suporte às principais plataformas de nuvem, incluindo Microsoft Azure Fábrica de dados, Informáticae Blocos de dados Fluxos de trabalho. Embora a empresa pudesse detectar problemas com pipelines de dados em execução nessas (e em outras) plataformas de nuvem antes, ela agora tem visibilidade whole sobre falhas de pipeline, linhagem e desempenho de pipeline em execução nos sistemas desses fornecedores, diz Gavish, incluindo
“Esses pipelines de dados e as integrações entre eles podem falhar, resultando em um dilúvio em cascata de problemas de qualidade de dados”, ele nos diz. “Os engenheiros de dados ficam sobrecarregados com alertas em diversas ferramentas, lutam para associar pipelines às tabelas de dados que eles impactam e não têm visibilidade de como as falhas de pipeline criam anomalias nos dados. Com a plataforma de observabilidade de dados ponta a ponta da Monte Carlo, as equipes de dados agora podem obter visibilidade whole de como cada trabalho do Azure Information Manufacturing facility, Informatica ou Databricks Workflows interage com ativos downstream, como tabelas, painéis e relatórios.”
Itens relacionados:
Monte Carlo detecta alterações de código que quebram dados
GenAI não precisa de LLMs maiores. Precisa de dados melhores