O Benchmark Visible Haystacks! – O Berkeley Synthetic Intelligence Analysis Weblog



Os humanos se destacam no processamento de vastas matrizes de informações visuais, uma habilidade essential para alcançar a inteligência geral synthetic (AGI). Ao longo das décadas, pesquisadores de IA desenvolveram sistemas de Resposta Visible a Perguntas (VQA) para interpretar cenas dentro de imagens únicas e responder a perguntas relacionadas. Embora os avanços recentes em modelos de base tenham fechado significativamente a lacuna entre o processamento visible humano e o da máquina, a VQA convencional foi restrita a raciocinar sobre apenas solteiro imagens de cada vez, em vez de coleções inteiras de dados visuais.

Essa limitação apresenta desafios em cenários mais complexos. Tomemos, por exemplo, os desafios de discernir padrões em coleções de imagens médicas, monitorar o desmatamento por meio de imagens de satélite, mapear mudanças urbanas usando dados de navegação autônoma, analisar elementos temáticos em grandes coleções de arte ou entender o comportamento do consumidor a partir de filmagens de vigilância de varejo. Cada um desses cenários envolve não apenas processamento visible em centenas ou milhares de imagens, mas também necessita de processamento de imagens cruzadas dessas descobertas. Para abordar essa lacuna, este projeto se concentra na tarefa “Multi-Picture Query Answering” (MIQA), que excede o alcance dos sistemas VQA tradicionais.

O Benchmark Visible Haystacks! – O Berkeley Synthetic Intelligence Analysis Weblog

Palheiros visuais: o primeiro benchmark Needle-In-A-Haystack (NIAH) “centrado no visible” projetado para avaliar rigorosamente Grandes Modelos Multimodais (LMMs) no processamento de informações visuais de longo contexto.

Como comparar modelos VQA no MIQA?

O desafio “Needle-In-A-Haystack” (NIAH) tornou-se recentemente um dos paradigmas mais populares para avaliar a capacidade do LLM de processar entradas contendo “longos contextos”, grandes conjuntos de dados de entrada (como documentos longos, vídeos ou centenas de imagens). Nesta tarefa, informações essenciais (“a agulha”), que contêm a resposta a uma pergunta específica, são incorporadas em uma vasta quantidade de dados (“o palheiro”). O sistema deve então recuperar as informações relevantes e responder à pergunta corretamente.

O primeiro benchmark NIAH para raciocínio visible foi introduzido pelo Google no Gemini-v1.5 relatório técnico. Neste relatório, eles pediram aos seus modelos para recuperar texto sobreposto em um único quadro em um vídeo grande. Acontece que os modelos existentes têm um desempenho muito bom nessa tarefa — principalmente devido às suas fortes capacidades de recuperação de OCR. Mas e se fizermos mais perguntas visuais? Os modelos ainda têm um desempenho tão bom?

O que é o Visible Haystacks (VHs) Benchmark?

Na busca pela avaliação das capacidades de raciocínio de contexto longo “centrado no visible”, apresentamos o benchmark “Visible Haystacks (VHs)”. Este novo benchmark foi criado para avaliar Massive Multimodal Fashions (LMMs) em modelos visuais recuperação e raciocínio em grandes conjuntos de imagens não correlacionadas. O VHs apresenta aproximadamente 1K pares binários de perguntas e respostas, com cada conjunto contendo de 1 a 10K imagens. Ao contrário de benchmarks anteriores que focavam na recuperação e raciocínio textual, as perguntas do VHs se concentram em identificar a presença de conteúdo visible específico, como objetos, utilizando imagens e anotações do conjunto de dados COCO.

O benchmark VHs é dividido em dois desafios principais, cada um projetado para testar a capacidade do modelo de localizar e analisar com precisão imagens relevantes antes de responder às consultas. Nós projetamos cuidadosamente o conjunto de dados para garantir que adivinhar ou confiar no raciocínio de senso comum sem visualizar a imagem não trará nenhuma vantagem (ou seja, resultando em uma taxa de precisão de 50% em uma tarefa de QA binária).

  • Desafio de agulha única: Existe apenas uma única imagem de agulha no palheiro de imagens. A questão é formulada como, “Para a imagem com o objeto âncora, existe um objeto alvo?”

  • Desafio Multi-Agulhas: Existem de duas a cinco imagens de agulhas no palheiro de imagens. A questão é formulada como, “Para todas as imagens com o objeto âncora, todas elas contêm o objeto alvo?” ou “Para todas as imagens com o objeto âncora, alguma delas contém o objeto alvo?”

Três descobertas importantes dos VHs

O benchmark Visible Haystacks (VHs) revela desafios significativos enfrentados pelos atuais Massive Multimodal Fashions (LMMs) ao processar entradas visuais extensas. Em nossos experimentos em modos de agulha única e múltipla, avaliamos vários métodos de código aberto e proprietários, incluindo LLaVA-v1.5, GPT-4o, Claude-3 Opuse Gemini-v1.5-pro. Além disso, incluímos uma linha de base de “legendas”, empregando uma abordagem de dois estágios, onde as imagens são inicialmente legendadas usando LLaVA, seguidas pela resposta à pergunta usando o conteúdo do texto das legendas com Lhama3. Abaixo estão três insights essenciais:

  1. Lutas com distrações visuais

    Em configurações de agulha única, um declínio notável no desempenho foi observado à medida que o número de imagens aumentou, apesar de manter alta precisão do oráculo — um cenário ausente em benchmarks anteriores baseados em texto no estilo Gemini. Isso mostra que os modelos existentes podem ter dificuldades principalmente com recuperação visible, especialmente na presença de distrações visuais desafiadoras. Além disso, é essential destacar as restrições em LMMs de código aberto como LLaVA, que podem manipular apenas até três imagens devido a um limite de comprimento de contexto de 2K. Por outro lado, modelos proprietários como Gemini-v1.5 e GPT-4o, apesar de suas alegações de recursos de contexto estendidos, muitas vezes falham em gerenciar solicitações quando a contagem de imagens excede 1K, devido aos limites de tamanho de carga útil ao usar a chamada de API.



    Desempenho em VHs para perguntas de agulha única. Todos os modelos experimentam queda significativa conforme o tamanho do palheiro (N) aumenta, sugerindo que nenhum deles é robusto contra distrações visuais. E: Excede o comprimento do contexto.

  2. Dificuldade de raciocínio em várias imagens

    Curiosamente, todos os métodos baseados em LMM apresentaram desempenho fraco com mais de 5 imagens em QA de imagem única e todas as configurações de múltiplas agulhas em comparação com uma abordagem básica encadeando um modelo de legenda (LLaVA) com um agregador LLM (Llama3). Essa discrepância sugere que, embora os LLMs sejam capazes de integrar legendas de contexto longo de forma eficaz, as soluções existentes baseadas em LMM são inadequadas para processar e integrar informações em múltiplas imagens. Notavelmente, o desempenho se deteriora enormemente em cenários de múltiplas imagens, com Claude-3 Opus mostrando resultados fracos apenas com imagens oracle, e Gemini-1.5/GPT-4o caindo para 50% de precisão (assim como um palpite aleatório) com conjuntos maiores de 50 imagens.



    Resultados em VHs para perguntas multiagulhas. Todos os modelos visualmente conscientes têm desempenho ruim, indicando que os modelos acham desafiador integrar implicitamente informações visuais.

  3. Fenômenos no Domínio Visible

    Finalmente, descobrimos que a precisão dos LMMs é enormemente afetada pela posição da imagem da agulha dentro da sequência de entrada. Por exemplo, o LLaVA mostra melhor desempenho quando a imagem da agulha é colocada imediatamente antes da pergunta, sofrendo uma queda de até 26,5% caso contrário. Em contraste, os modelos proprietários geralmente têm melhor desempenho quando a imagem é posicionada no início, experimentando uma redução de até 28,5% quando não. Esse padrão ecoa o “perdido no meio” fenômeno visto no campo do Processamento de Linguagem Pure (PLN), onde informações cruciais posicionadas no início ou no fim do contexto influenciam o desempenho do modelo. Esse problema não period evidente na avaliação anterior do NIAH no estilo Gemini, que exigia apenas recuperação de texto e raciocínio, ressaltando os desafios únicos apresentados pelo nosso benchmark VHs.



    Posição da agulha vs. desempenho em VHs para várias configurações de imagem. LMMs existentes mostram queda de desempenho de até 41% quando a agulha não está posicionada de forma best. Caixas cinzas: Excede o comprimento do contexto.

MIRAGE: Uma solução baseada em RAG para melhor desempenho de VHs

Com base nos resultados experimentais acima, fica claro que os principais desafios das soluções existentes em MIQA residem na capacidade de (1) recuperar imagens relevantes de um vasto conjunto de imagens potencialmente não relacionadas, sem vieses posicionais e (2) integrar informações visuais relevantes dessas imagens para responder corretamente à pergunta. Para abordar essas questões, introduzimos um paradigma de treinamento de estágio único, simples e de código aberto, “MIRAGE” (Multi-Picture Retrieval Augmented Era), que estende o LLaVA modelo para lidar com tarefas MIQA. A imagem abaixo mostra nossa arquitetura de modelo.

Estrutura do MIRAGE

Nosso paradigma proposto consiste em vários componentes, cada um projetado para aliviar problemas-chave na tarefa MIQA:

  1. Comprimir codificações existentes: O paradigma MIRAGE aproveita um modelo de compressão com reconhecimento de consulta para reduzir os tokens do codificador visible a um subconjunto menor (10x menor), permitindo mais imagens no mesmo comprimento de contexto.

  2. Empregar retriever para filtrar mensagens irrelevantes: O MIRAGE usa um recuperador treinado em linha com o ajuste fino do LLM para prever se uma imagem será relevante e descartar dinamicamente imagens irrelevantes.

  3. Dados de treinamento de várias imagens: O MIRAGE amplia os dados existentes de ajuste fino de instruções de imagem única com dados de raciocínio de múltiplas imagens e dados de raciocínio de múltiplas imagens sintéticos.

Resultados

Revisitamos o benchmark VHs com MIRAGE. Além de ser capaz de lidar com imagens de 1K ou 10K, o MIRAGE atinge desempenho de ponta na maioria das tarefas de agulha única, apesar de ter um spine de QA de imagem única mais fraco com apenas 32 tokens por imagem!

VHs_com_MIRAGE

Também comparamos o MIRAGE e outros modelos baseados em LMM em uma variedade de tarefas VQA. Em tarefas de múltiplas imagens, o MIRAGE demonstra fortes capacidades de recall e precisão, superando significativamente concorrentes fortes como GPT-4, Gemini-v1.5 e o Modelo de Mundo Grande (LWM). Além disso, ele mostra um desempenho competitivo de controle de qualidade de imagem única.

Resultados da avaliação VQA

Por fim, comparamos o retriever co-treinado do MIRAGE com GRAMPO. Nosso retriever tem um desempenho significativamente melhor que o CLIP sem perder eficiência. Isso mostra que, embora os modelos CLIP possam ser bons retrievers para recuperação de imagens de vocabulário aberto, eles podem não funcionar bem ao lidar com textos do tipo pergunta!

Estudos de Ablação

Neste trabalho, desenvolvemos o benchmark Visible Haystacks (VHs) e identificamos três deficiências prevalentes nos Grandes Modelos Multimodais (LMMs) existentes:

  1. Lutas com distrações visuais:Em tarefas de agulha única, os LMMs apresentam um declínio acentuado no desempenho à medida que o número de imagens aumenta, indicando um desafio significativo na filtragem de informações visuais irrelevantes.

  2. Dificuldade de raciocínio em várias imagens: Em ambientes com múltiplas agulhas, abordagens simplistas como legendas seguidas de controle de qualidade baseado em linguagem superam todos os LMMs existentes, destacando a capacidade inadequada dos LMMs de processar informações em múltiplas imagens.

  3. Fenômenos no Domínio Visible: Tanto os modelos proprietários quanto os de código aberto apresentam sensibilidade à posição das informações da agulha nas sequências de imagens, exibindo um fenômeno de “perda no meio” no domínio visible.

Em resposta, propomos o MIRAGE, uma estrutura pioneira de Retriever-Augmented Generator (visual-RAG). O MIRAGE aborda esses desafios com um compressor de token visible inovador, um retriever co-treinado e dados de ajuste de instruções de múltiplas imagens aumentadas.

Após explorar esta postagem do weblog, encorajamos todos os projetos futuros de LMM a fazer benchmark de seus modelos usando a estrutura Visible Haystacks para identificar e retificar deficiências potenciais antes da implantação. Também incentivamos a comunidade a explorar a resposta a perguntas com múltiplas imagens como um meio de avançar as fronteiras da verdadeira Inteligência Synthetic Geral (AGI).

Por último, mas não menos importante, confira nosso página do projetoe artigo arxive clique no botão de estrela em nosso repositório github!

@article{wu2024visual,
  title={Visible Haystacks: Answering More durable Questions About Units of Pictures},
  creator={Wu, Tsung-Han and Biamby, Giscard and and Quenum, Jerome and Gupta, Ritwik and Gonzalez, Joseph E and Darrell, Trevor and Chan, David M},
  journal={arXiv preprint arXiv:2407.13766},
  12 months={2024}
}

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *