Um vislumbre de como a IA multimodal transformará a robótica


O recém-anunciado Magma é uma IA multimodal, permitindo tarefas agênticas que variam da navegação na interface do usuário à manipulação da robótica.

Magma-o trabalho de pesquisadores da Microsoft, da Universidade de Maryland, da Universidade de Wisconsin-Madison, Kaist e da Universidade de Washington-expande as capacidades dos modelos tradicionais de linguagem da visão (VL), introduzindo recursos inovadores para planejamento de ação, espacial raciocínio e entendimento multimodal.

O modelo de fundação multimodal de nova geração não apenas mantém a inteligência verbal de seus antecessores de VL, mas também introduz a inteligência espacial avançada. É capaz de entender as relações visuais-espaciais, planejar ações e executá-las com precisão.

Seja navegando em interfaces digitais ou comandando os braços robóticos, o magma pode realizar tarefas que anteriormente eram alcançáveis ​​apenas por meio de modelos especializados de IA específicos de domínio.

Segundo a equipe de pesquisa, o desenvolvimento de Magma foi guiado por dois objetivos principais:

  • Habilidades unificadas em todo o mundo digital e físico: O MAGMA integra recursos para ambientes digitais, como navegação na net e móveis, com tarefas de robótica, que caem diretamente no domínio físico.
  • Inteligência verbal, espacial e temporal combinada: O modelo foi projetado para analisar imagens, vídeos e entradas de texto, enquanto converte objetivos de nível superior em planos de ação concreta.

Técnicas de treinamento inovadoras

O Magma alcança suas capacidades avançadas por meio de uma nova estrutura de pré-treinamento sustentada por dois paradigmas principais: conjunto de marcas (SOM) e rastreio de marca (TOM). Esses métodos se concentram em ações de aterramento de maneira eficaz e no planejamento de movimentos futuros com base em pistas visuais e temporais.

Conjunto de marcas (SOM): aterramento de ação

O SOM é elementary para aterramento de ação em imagens estáticas. Envolve rotular objetos visuais acionáveis, como botões clicáveis ​​nas capturas de tela da interface do usuário ou braços robóticos em tarefas de manipulação, com marcadores numéricos. Isso permite que o magma identifique e segmente com precisão elementos visuais para ação, seja nas interfaces do usuário ou nas configurações de manipulação física.

Hint de mark (TOM): Planejamento de ação

Para ambientes dinâmicos, Tom treina o modelo para reconhecer a dinâmica de vídeo temporal, antecipar estados futuros e criar planos de ação. Ao rastrear os movimentos dos objetos, como a trajetória de um braço robótico, Tom captura dependências de longo prazo nos dados de vídeo sem serem distraídos por mudanças ambientais estranhas.

Os pesquisadores observam que esse método é muito mais eficiente do que as abordagens tradicionais de previsão da estrutura seguinte, pois usa menos tokens, mantendo a capacidade de prever horizontes temporais estendidos.

Dados e metodologia pré -treinamento

Para equipar o Magma com suas proezas multimodais, os pesquisadores selecionaram um conjunto de dados de treinamento vasto e heterogêneo, combinando várias modalidades:

  • Vídeos de instrução
  • Conjuntos de dados de manipulação de robótica
  • Dados de navegação da interface do usuário
  • Conjuntos de dados de compreensão multimodais existentes

A pré -treinamento envolveu dados agênticos anotados e dados não marcados “no Wild”, incluindo conteúdo de vídeo não estruturado. Para garantir a supervisão específica da ação, o movimento da câmera foi meticulosamente removido dos vídeos e o treinamento de modelos focados em interações significativas, como manipulação de objetos e cliques de botão.

O oleoduto pré -treinamento unifica as modalidades de texto, imagem e ação em uma estrutura coesa, estabelecendo as bases para diversas aplicações a jusante.

IA multimodal de última geração para robótica e além

A versatilidade e o desempenho do magma foram validados por meio de extensas avaliações de tiro zero e ajuste fino em várias categorias:

Manipulação de robótica

Nas operações robóticas de pick-and-place e tarefas de manipulação de objetos suaves, avaliados em plataformas como a série WidowX e o libido, o Magma se estabeleceu como o modelo de última geração.

Mesmo em tarefas fora da distribuição (cenários não abordados durante o treinamento), o Magma demonstrou recursos robustos de generalização, superando o OpenVLA e outros modelos de IA específicos para robótica.

Vídeos lançados pelo Workforce mostra magma em ação em tarefas do mundo actual, como colocar objetos como cogumelos em uma panela ou empurrar suavemente o tecido em uma superfície.

Navegação da interface do usuário

Em tarefas como a interação Internet e UI móvel, o Magma demonstrou precisão excepcional, mesmo sem ajuste fino específico do domínio. Por exemplo, o modelo pode executar autonomamente uma sequência de ações da interface do usuário, como procurar informações climáticas e facilitar o modo de voo – o tipo de tarefas que os seres humanos executam diariamente.

Quando sintonizado finamente em conjuntos de dados como Mind2Web e AITW, o Magma obteve resultados líderes em benchmarks de navegação digital, superando modelos anteriores específicos de domínio.

Raciocínio espacial

O magma exibiu um forte raciocínio espacial, superando outros modelos em avaliações complexas, incluindo o GPT-4. Sua capacidade de entender as relações verbais, espaciais e temporais entre os insumos multimodais demonstra avanços profundos nas capacidades gerais de inteligência.

Resposta de perguntas em vídeo (QA de vídeo)

Mesmo com o acesso a um quantity menor de dados de ajuste de instruções em vídeo, o Magma se destacou em tarefas relacionadas ao vídeo, como resposta a perguntas e interpretação temporal. Ele superou as abordagens de ponta, como o Video-Llama2, na maioria dos benchmarks, provando seu poder de generalização.

Implicações para AI multimodal

O Magma representa um salto elementary no desenvolvimento de modelos de fundação para agentes multimodais de IA. Sua capacidade de perceber, planejar e agir marca uma mudança na usabilidade da IA-de ser reativo e único funcional a proativo e versátil entre os domínios.

Ao integrar o raciocínio verbal e espaço-temporal, o magma preenche a lacuna entre a compreensão e a execução de ações-criando um passo mais perto das capacidades do tipo humano.

Enquanto o Magma é um salto impressionante, os pesquisadores reconhecem várias limitações. Sendo projetado principalmente para pesquisa, o modelo não é otimizado para todas as aplicações a jusante e pode exibir vieses ou imprecisões em cenários de alto risco.

Os desenvolvedores que trabalham com versões finamente ajustadas do Magma são aconselhadas a avaliá-lo quanto à segurança, justiça e adesão à conformidade regulatória.

Olhando para o futuro, a equipe prevê que alavancando a estrutura do magma para aplicativos como:

  • Legenda de imagem/vídeo
  • Resposta de perguntas avançadas
  • Sistemas de navegação complexos
  • Automação de tarefas de robótica

Ao refinar e expandir seus objetivos de conjunto de dados e pré -treinamento, eles pretendem continuar aprimorando a inteligência multimodal e agêntica do Magma.

O magma é sem dúvida um marco, demonstrando o que é possível quando os modelos fundamentais são estendidos para unir domínios digitais e físicos.

Desde o controle dos robôs nas fábricas até a automação de fluxos de trabalho digitais, o Magma é um plano promissor para um futuro em que a IA pode alternar perfeitamente entre telas, câmeras e robótica para resolver desafios do mundo actual.

(Foto por MARC SZEGLAT)

Veja também: Máquinas inteligentes 2035: abordando os desafios e impulsionando o crescimento

Um vislumbre de como a IA multimodal transformará a robóticaUm vislumbre de como a IA multimodal transformará a robótica

Deseja aprender mais sobre IA e Massive Information dos líderes do setor? Confira Ai & Massive Information Expo Ocorrendo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos principais, incluindo IoT Tech ExpoAssim, Conferência de Automação InteligenteAssim, BlockxAssim, Semana de Transformação Digitale Cyber ​​Safety & Cloud Expo.

Discover outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.

Tags: Assim, Assim, Assim, Assim, Assim,

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *