Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
À medida que as empresas de todo o mundo duplicam os seus projetos de IA, a disponibilidade de dados de formação de alta qualidade tornou-se um grande estrangulamento. Enquanto o an online pública está praticamente esgotada como fonte de dados, grandes gamers como OpenAI e Google estão garantindo parcerias exclusivas para expandir seus conjuntos de dados proprietários, limitando ainda mais o acesso de outros.
Para responder a esta preocupação crescente, Força de vendas deu um grande passo na área de dados de treinamento visible. A empresa acaba de lançar o ProVision, uma nova estrutura que gera dados de instruções visuais de maneira programática. Esses conjuntos de dados são sintetizados sistematicamente para permitir o treinamento de modelos de linguagem multimodal (MLMs) de alto desempenho que podem responder perguntas sobre imagens.
A empresa já lançou o conjunto de dados ProVision-10M com esta abordagem e está utilizando-o para aumentar o desempenho e a precisão de vários modelos de IA multimodais.
Para profissionais de dados, esta estrutura representa um avanço significativo. Ao gerar programaticamente dados de instrução visible de alta qualidade, o ProVision alivia a dependência de conjuntos de dados limitados ou rotulados de forma inconsistente, um desafio comum no treinamento de sistemas multimodais.
Além disso, a capacidade de sintetizar sistematicamente conjuntos de dados garante melhor controle, escalabilidade e consistência, permitindo ciclos de iteração mais rápidos e reduzindo o custo de aquisição de dados específicos de domínio. Este trabalho complementa a pesquisa em andamento no domínio da geração de dados sintéticos e surge apenas um dia depois Lançamento do Cosmos pela Nvidiaum conjunto de modelos de base mundial criados especificamente para gerar vídeos baseados em física a partir de uma combinação de entradas, como texto, imagem e vídeo, para treinamento físico de IA.
Dados de instruções visuais: um ingrediente chave para IA multimodal
Hoje, os conjuntos de dados de instruções são o núcleo do pré-treinamento ou ajuste fino de IA. Esses conjuntos de dados especializados ajudam os modelos a seguir e responder com eficácia a instruções ou consultas específicas. No caso da IA multimodal, os modelos obtêm a capacidade de analisar conteúdos como imagens após aprenderem a partir de uma série de diferentes pontos de dados, acompanhados por pares de perguntas e respostas – ou dados de instruções visuais – que os descrevem.
Agora, o problema é o seguinte: produzir esses conjuntos de dados de instruções visuais é bastante complicado. Se uma empresa cria os dados manualmente para cada imagem de treinamento, acaba perdendo muito tempo e recursos humanos para concluir o projeto. Por outro lado, se optar por utilizar modelos de linguagem proprietária para a tarefa, terá que lidar com elevados custos computacionais e o risco de alucinações, onde a qualidade e a precisão dos pares pergunta-resposta podem não ser boas o suficiente.
Além disso, o uso de modelos proprietários também é um mecanismo de caixa preta, pois dificulta a interpretação precisa do processo de geração e controle de dados ou a personalização precisa dos resultados.
Entre no Salesforce ProVision
Para resolver essas lacunas, a equipe de pesquisa de IA da Salesforce criou o ProVision, uma estrutura que emprega gráficos de cena em conjunto com programas escritos por humanos para sintetizar sistematicamente dados de instrução centrados na visão.
Basicamente, um gráfico de cena pode ser descrito como uma representação estruturada da semântica da imagem, onde os objetos no conteúdo são representados como nós. Os atributos de cada objeto — como cor ou tamanho — são atribuídos diretamente aos seus respectivos nós, enquanto as relações entre esses objetos são representadas como arestas direcionadas conectando os nós correspondentes. Essas representações podem ser obtidas a partir de conjuntos de dados anotados manualmente, como o Visible Genome, ou podem ser geradas com a ajuda de um pipeline de geração de gráfico de cena que combina vários modelos de visão de última geração, cobrindo vários aspectos da semântica da imagem, desde objeto e atribuir detecção à estimativa de profundidade.
Assim que os gráficos de cena estiverem prontos, eles potencializam programas escritos usando Python e modelos textuais que servem como geradores de dados completos, capazes de criar pares de perguntas e respostas para pipelines de treinamento de IA.
“Cada gerador (de dados) utiliza centenas de modelos predefinidos, que integram sistematicamente essas anotações para produzir diversos dados de instrução. Esses geradores são criados para… comparar, recuperar e raciocinar sobre conceitos visuais básicos de objetos, atributos e relações com base nas informações detalhadas codificadas em cada gráfico de cena”, escreveram os pesquisadores por trás da estrutura em um comunicado. papel.

Conjunto de dados ProVision-10M para treinamento de IA
Em seu trabalho, a Salesforce usou ambas as abordagens – aumento de gráficos de cena anotados manualmente e geração do zero – para configurar gráficos de cena alimentando 24 geradores de dados de imagem única e 14 geradores de múltiplas imagens.
“Com esses geradores de dados, podemos sintetizar automaticamente perguntas e respostas a partir de um gráfico de cena de uma imagem. Por exemplo, dada a imagem de uma rua movimentada, o ProVision pode gerar perguntas como: “Qual é a relação entre o pedestre e o carro?” ou “Qual objeto está mais próximo do prédio vermelho, (o) carro ou pedestre?” os principais pesquisadores Jieyu Zhang e Le Xue observaram em um postagem no weblog.
Os geradores de dados com a primeira abordagem, aumentando os gráficos de cena do Visible Genome com profundidade e anotação de segmentação do Depth Something V2 e SAM-2, ajudaram-nos a criar 1,5 milhão de pontos de dados de instrução de imagem única e 4,2 milhões de pontos de dados de instrução de múltiplas imagens. Enquanto isso, o outro, usando 120.000 imagens de alta resolução do conjunto de dados DataComp e modelos como Yolo-World, Coca, Llava-1.5 e Osprey, gerou 2,3 milhões de pontos de dados de instrução de imagem única e 4,2 milhões de pontos de dados de instrução de múltiplas imagens.
Ao todo, as quatro divisões combinadas constituem o ProVision-10M, um conjunto de dados com mais de 10 milhões de pontos de dados de instrução exclusivos. Já está disponível em Abraçando o rosto e já está provando ser muito eficaz em pipelines de treinamento de IA.
Especificamente, quando a empresa incorporou o ProVision-10M em receitas de ajuste fino de IA multimodal – LLaVA-1.5 para dados de instrução de imagem única e Mantis-SigLIP-8B para dados de instrução de múltiplas imagens – ela viu melhorias notáveis, com o desempenho médio do modelos sendo maiores do que com ajuste fino sem dados ProVision.
“Quando adotados no estágio de ajuste de instrução, nossos dados de instrução de imagem única produzem uma melhoria de até 7% na divisão 2D e 8% na divisão 3D do CVBench, juntamente com um aumento de 3% no desempenho no QBench2, RealWorldQA e MMMU. Nossos dados de instrução de múltiplas imagens levam a uma melhoria de 8% no Mantis-Eval”, observaram os pesquisadores no artigo.

Os dados sintéticos vieram para ficar
Embora existam vários ferramentas e plataformasincluindo os novos modelos de fundação mundial Cosmos da Nvidia, para gerar diferentes modalidades de dados (de imagens a vídeos) que podem ser usados para treinamento de IA multimodal, apenas alguns analisaram o problema de criar os conjuntos de dados de instruções que combinam com esses dados.
A Salesforce está resolvendo esse gargalo com o ProVision, oferecendo às empresas uma maneira de ir além da rotulagem handbook ou dos modelos de linguagem de caixa preta. A abordagem de geração de dados de instrução de forma programática garante a interpretabilidade e a controlabilidade do processo de geração e é dimensionada de forma eficiente, mantendo a precisão factual.
No longo prazo, a empresa espera que os pesquisadores possam aproveitar este trabalho para aprimorar os pipelines de geração de gráficos de cena e criar mais geradores de dados cobrindo novos tipos de dados de instrução, como aqueles para vídeos.