
Ai2 disse que o Molmo 2 melhora seus modelos anteriores, apesar de seu tamanho compacto. | Fonte: Ai2
O Allen Institute for AI, também conhecido como Ai2, lançou na semana passada o Molmo 2, seu mais recente conjunto multimodelo capaz de compreensão espacial e temporal precisa de vídeos, imagens e conjuntos de múltiplas imagens. Baseado na primeira plataforma Molmo, o Molmo 2 possui recursos avançados de apontamento de vídeo, raciocínio multiquadro e rastreamento de objetos.
Molmo 2 é um modelo de parâmetro 8B que supera o parâmetro 72B do ano passado Molmo em precisão, compreensão temporal e aterramento em nível de pixel. Ai2 disse que também supera modelos proprietários como o Gemini 3 em habilidades emergentes importantes, como rastreamento de vídeo.
Quando se trata de raciocínio de imagem e multiimagem, Ai2 afirmou que a variante Molmo 2 4B supera modelos abertos como Qwen 3-VL-8B enquanto usa menos parâmetros. Habilidades como essas ajudam o modelo, e qualquer aplicativo ou sistema construído sobre ele, a entender o que está acontecendo, onde está acontecendo e o que significa.
O Molmo 2 também é treinado com muito menos dados do que modelos semelhantes – 9,19 milhões de vídeos em comparação com 72,5 milhões do PerceptionLM da Meta.
“Com uma fração dos dados, o Molmo 2 ultrapassa muitos modelos de fronteira em tarefas importantes de compreensão de vídeo”, disse Ali Farhadi, CEO da Ai2. “Estamos entusiasmados em ver o imenso impacto que este modelo terá no cenário da IA, acrescentando outra peça ao nosso ecossistema de modelos totalmente aberto.”
Ai2 é uma pesquisa de IA sem fins lucrativos com sede em Seattle instituto com a missão de construir IA para resolver os maiores problemas do mundo. Fundada em 2014 pelo falecido cofundador da Microsoft Paul G. Allen, a Ai2 disse que desenvolve IA pesquisa e novas aplicações por meio de modelos abertos em larga escala, dados abertos, robótica, plataformas de conservação e muito mais.
Molmo 2 oferece novos recursos
A compreensão profunda do vídeo é basic para construir modelos que possam compreender e agir em fluxos de sensores para robótica. No entanto, a maioria dos modelos atuais não possui capacidade de compreensão de vídeo ou está bloqueada por sistemas proprietários sem transparência nos dados. Ai2 disse que está dando aos pesquisadores acesso a aterramento de vídeo avançado, rastreamento e raciocínio multiquadro, tudo com pesos e dados abertos.
O Molmo 2 pode identificar exatamente onde e quando os eventos ocorrem, rastrear vários objetos em cenas complexas e conectar ações a cronogramas em nível de quadro. O empresa disse que esses recursos apoiam uma automação mais segura, sistemas do mundo actual mais precisos e pesquisas abertas que a comunidade international pode inspecionar, reproduzir e desenvolver.
Ai2 listou os principais recursos:
- Aterramento espacial e temporal em nível de quadro: Molmo 2 vai além da descrição. Ele retorna coordenadas precisas de pixels, posições de objetos e carimbos de knowledge/hora para eventos em um vídeo.
- Rastreamento e contagem robustos de vários objetos: O modelo mantém identidades de objetos consistentes em oclusões, mudanças de cena e clipes longos, permitindo aplicações em robótica, inspeção, transporte e indústria.
- Legendagem densa de vídeos de formato longo e detecção de anomalias: Molmo 2 produz descrições altamente detalhadas e pesquisáveis e sinaliza eventos incomuns em longas sequências.
Molmo 2 cumpre os principais benchmarks de peso aberto, diz Ai2
O Molmo 2 oferece resultados nos principais benchmarks de peso aberto e está no mesmo nível dos principais sistemas proprietários em tarefas de vídeo do mundo actual. O modelo atende ao desempenho líder de peso aberto em benchmarks de compreensão de vídeos curtos, como MVBench, MotionQA e NextQA.
Ele oferece melhorias na precisão do aterramento de vídeo, muitas vezes dobrando ou triplicando as pontuações dos modelos abertos anteriores e superando APIs proprietárias em diversas tarefas de apontar e contar, afirmou Ai2. O modelo também oferece resultados de rastreamento em benchmarks de vários domínios, superando fortes linhas de base abertas e vários modelos comerciais fechados.
Além disso, o Molmo 2 apresenta raciocínio de imagem e multiimagem que rivaliza ou excede sistemas maiores de peso aberto, apesar de usar menos parâmetros. Ai2 afirmou que as avaliações de preferência humana mostraram que o Molmo 2 está no mesmo nível ou é melhor do que vários sistemas proprietários em tarefas de controle de qualidade e legendagem de vídeo do mundo actual.
Ai2 oferece dados abertos e receitas
Para transparência e reprodutibilidade, todas as fontes de treinamento do Molmo 2 são fornecidas no relatório técnico. Ai2 também está lançando uma coleção de nove novos conjuntos de dados abertos usados para treinar o Molmo 2, totalizando mais de 9 milhões de exemplos multimodais em legendas de vídeo densas, controle de qualidade de formato longo, aterramento, rastreamento e raciocínio multi-imagem.
Só o corpus de legendas abrange mais de 100.000 vídeos com descrições detalhadas que têm em média mais de 900 palavras cada. O combine de dados abrange apontamento de vídeo, rastreamento de vários objetos, aterramento sintético e raciocínio de vídeo longo. Juntos, eles formam uma das coleções de dados de vídeo abertos mais completas disponíveis atualmente, afirmou Ai2.
Molmo 2 vem em três variantes principais: Molmo 2 (4B), Molmo2 (8B) e Molmo 2-O (7B), que usa o spine Olmo totalmente aberto do Ai2 para o fluxo completo do modelo de ponta a ponta. Também estão disponíveis versões ajustadas especificamente para apontar e rastrear.
Todos os modelos, conjuntos de dados e ferramentas de avaliação estão agora disponíveis publicamente em GitHub, Abraçando o rostoe o Ai2 Parque infantil para testes interativos. A empresa planeja lançar o código de treinamento em breve.
