Mindjourney permite que a IA discover mundos 3D simulados para melhorar a interpretação espacial


Mindjourney permite que a IA discover mundos 3D simulados para melhorar a interpretação espacial

Uma nova estrutura de pesquisa ajuda os agentes da IA a explorar os espaços tridimensionais que não podem detectar diretamente. Chamado MindJourneya abordagem aborda uma limitação elementary nos modelos de linguagem da visão (VLMs), que oferecem aos agentes da IA sua capacidade de interpretar e descrever cenas visuais.

Embora os VLMs sejam fortes na identificação de objetos em imagens estáticas, elas lutam para interpretar o mundo 3D interativo atrás de imagens 2D. Essa lacuna aparece em perguntas espaciais como “Se eu sentar no sofá que está à minha direita e enfrentar as cadeiras, a cozinha estará à minha direita ou à esquerda?” – tarefas que exigem que um agente interprete sua posição e movimento pelo espaço.

As pessoas superam esse desafio explorando mentalmente um espaço, imaginando movimentá -lo e combinar esses instantâneos mentais para descobrir onde estão os objetos. A MindJourney aplica o mesmo processo aos agentes da IA, permitindo que eles percorram um espaço digital antes de responder a perguntas espaciais.

Como Mindjourney navega no espaço 3D

Para realizar esse tipo de navegação espacial, Mindjourney usa um Modelo Mundial– Nesse caso, um sistema de geração de vídeo treinado em uma grande coleção de vídeos capturados de um único ponto de vista em movimento, mostrando ações como dando em frente e virando à esquerda da direita, como um diretor de fotografia 3D. A partir disso, aprende a prever como uma nova cena apareceria de diferentes perspectivas.

No momento da inferência, o modelo pode gerar imagens foto-realistas de uma cena com base em possíveis movimentos da posição atual do agente. Ele gera várias visualizações possíveis de uma cena, enquanto o VLM atua como um filtro, selecionando as perspectivas construídas com maior probabilidade de responder à pergunta do usuário.

Estes são mantidos e expandidos na próxima iteração, enquanto caminhos menos promissores são descartados. Esse processo, mostrado na Figura 1, evita a necessidade de gerar e avaliar milhares de seqüências de movimento possíveis, concentrando -se apenas nas perspectivas mais informativas.

Figura 1. Dada uma consulta de raciocínio espacial, a MindJourney pesquisa no espaço 3D imaginado usando um modelo mundial e melhora a interpretação espacial do VLM por meio de observações geradas ao encontrar novos desafios.
Figura 1. Dada uma consulta de raciocínio espacial, a MindJourney pesquisa no espaço 3D imaginado usando um modelo mundial e melhora a interpretação espacial do VLM por meio de observações geradas ao encontrar novos desafios.

Para fazer sua pesquisa através de um espaço simulado eficaz e eficiente, a MindJourney usa um Pesquisa de feixe espacial– Um algoritmo que prioriza os caminhos mais promissores. Funciona dentro de um número fixo de etapas, cada uma representando um movimento. Ao equilibrar amplitude com profundidade, a pesquisa de feixe espacial permite que a MindJourney reunisse fortes evidências de apoio. Este processo é ilustrado na Figura 2.

Diagrama de oleoduto MindJourney
Figura 2. O fluxo de trabalho MindJourney começa com uma pesquisa de feixe espacial por um número definido de etapas antes de responder à consulta. O modelo mundial gera interativamente novas observações, enquanto um VLM interpreta as imagens geradas, orientando a pesquisa durante todo o processo.

Ao iterar através da simulação, avaliação e integração, o MindJourney pode raciocinar sobre relacionamentos espaciais muito além do que qualquer imagem 2D pode transmitir, tudo sem a necessidade de treinamento adicional. No referência de treinamento espacial de aptidão (SAT), melhorou a precisão dos VLMs em 8% no desempenho da linha de base.

Highlight: Experiência movida a IA

Microsoft Analysis Copilot Expertise

Descubra mais sobre pesquisa na Microsoft através de nossa experiência movida a IA


Construindo agentes mais inteligentes

Mindjourney mostrou desempenho forte Em vários benchmarks de rendimento espacial 3D, e até os VLMs avançados melhoraram quando combinados com seu loop de imaginação. Isso sugere que os padrões espaciais que os modelos mundiais aprendem com imagens brutas, combinadas com as capacidades simbólicas do VLMS, criam uma capacidade espacial mais completa para os agentes. Juntos, eles permitem que os agentes inferam o que está além do quadro visível e interprete o mundo físico com mais precisão.

Ele também demonstra que VLMs pré-tenhados e modelos mundiais treináveis podem trabalhar juntos em 3D sem reciciar nenhum dos agentes de uso geral capaz de interpretar e agir em ambientes do mundo actual. Isso abre o caminho para possíveis aplicações em robótica autônoma, tecnologias domésticas inteligentes e ferramentas de acessibilidade para pessoas com deficiência visible.

Ao converter sistemas que simplesmente descrevem imagens estáticas em agentes ativos que avaliam continuamente onde procurar a seguir, a MindJourney conecta a visão computacional ao planejamento. Como a exploração ocorre inteiramente dentro do espaço latente do modelo – sua representação interna da cena – os robôs seriam capazes de testar vários pontos de vista antes de determinar seu próximo passo, potencialmente reduzindo o desgaste, o uso de energia e o risco de colisão.

Olhando para o futuro, planejamos estender a estrutura para usar os modelos mundiais que não apenas prevêem novos pontos de vista, mas também prevê como a cena pode mudar com o tempo. Prevemos a MindJourney trabalhando ao lado de VLMs que interpretam essas previsões e as usam para planejar o que fazer a seguir. Esse aprimoramento pode permitir que os agentes interpretem com mais precisão as relações espaciais e a dinâmica física, ajudando -os a operar efetivamente nas mudanças nos ambientes.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *