
A Iterative, uma startup dedicada a melhorar e otimizar fluxos de trabalho para engenheiros de IA, revelou o DataChain, uma nova ferramenta de código aberto para avaliação e processamento de dados não estruturados.
A startup afirma que o DataChain transformará a maneira como os dados estruturados são selecionados, processados e avaliados por grandes modelos de linguagem (LLMs).
da McKinsey Pesquisa world sobre o estado da IA publicado no início de 2024 revelou que apenas 15% das empresas perceberam um impacto significativo do GenAI em seus resultados de negócios. Uma grande parte desse problema são as ineficiências de dados que existem em muitas organizações. De acordo com a Iterative, a incapacidade de processar dados não estruturados é uma grande barreira para o sucesso da IA, destacando uma lacuna significativa entre as tecnologias de dados estruturados e os novos fluxos de trabalho de IA baseados em Python.
Dados não estruturados compõem a maior parte das informações armazenadas nos sistemas da empresa e são vitais para o treinamento e ajuste fino de modelos de IA. No entanto, alavancar efetivamente esses dados é complicado por questões como escalabilidade, complexidade de dados e dificuldades de integração.
As ferramentas existentes são projetadas para dados estruturados, como planilhas e bancos de dados. Dados não estruturados, como imagens, vídeos e PDFs, estão se mostrando muito mais difíceis de acessar, avaliar e melhorar em escala. Engenheiros de IA frequentemente dependem da construção de códigos personalizados para gerenciar dados não estruturados. No entanto, a natureza trabalhosa dessa abordagem, juntamente com os problemas potenciais com escalabilidade, dificulta o gerenciamento eficiente de dados não estruturados.
“O maior desafio na adoção de inteligência synthetic na empresa hoje é a falta de práticas e ferramentas para curadoria de dados e avaliação generativa de IA que possam garantir a qualidade dos resultados”, disse Dmitry Petrov, CEO da Iterative.
“Como próximo passo, precisamos de modelos de IA que possam avaliar e melhorar modelos de IA. Até agora, isso só aconteceu na vanguarda da indústria – dê uma olhada no treinamento AlphaGo da DeepMind contra si mesmo, ou no DALL-E3 da OpenAI curando seu próprio conjunto de dados. Nosso objetivo é mudar isso.”
Petrov acredita que a solução para esse problema está em alavancar a própria IA. Com seus recursos analíticos baseados em IA, como “modelos de linguagem grande (LLMs) julgando LLMs” e avaliações GenAI multimodais, a DataChain pode automatizar a avaliação e o aprimoramento de modelos de IA. Isso pode minimizar a necessidade de intervenção handbook extensiva.
Além disso, o DataChain da Iterative democratiza o uso de modelos de IA ao torná-los mais acessíveis para avaliar e processar dados não estruturados. Ele faz isso adicionando uma “metacamada” de informações que contém informações sobre os arquivos, bem como as metainformações.
O DataChain funciona de uma forma que espelha a eficiência da consulta SQL para dados estruturados, mas estende essa capacidade para lidar com dados não estruturados e multimodais interagindo com arquivos e seus meta atributos associados. Os recursos de linguagem pure permitem que os usuários consultem seus dados facilmente.
Fundada em 2018, a Iterative atingiu mais de 20 milhões de downloads para seu software program de código aberto Information Model Management (DVC). Ela tem mais de 400 colaboradores em diferentes ferramentas e mais de 20 clientes corporativos, incluindo empresas da Fortune 500.
A introdução do DataChain representa um progresso significativo na alavancagem de todo o potencial de dados não estruturados, no entanto, tais ferramentas podem ter um longo caminho a percorrer antes que possam abordar completamente todas as complexidades e desafios associados ao gerenciamento e curadoria de diversos tipos de dados. O DataChain pode ser capaz de aumentar sua visibilidade e adoção em todos os setores ao ser integrado a plataformas empresariais maiores.
itens relacionados
Quebrando Silos, Construindo Insights: Implementando um Information Material
Sim, o Large Information ainda é uma coisa (ele nunca realmente desapareceu)