Ai2 diz que o novo modelo Molmoact 7B traz IA para o mundo físico


Ai2 diz que o novo modelo Molmoact 7B traz IA para o mundo físico

A AI2 disse que seu modelo Molmoact é seguro, interpretável, adaptável e verdadeiramente aberto. | Fonte: AI2, Adobe Inventory

O Instituto Allen para a IA, também conhecido como AI2, anunciou ontem o lançamento do Molmoact 7B, um modelo de IA incorporado que, segundo ele, traz modelos de inteligência synthetic de ponta ao mundo físico.

Em vez de raciocinar através da linguagem e converter isso em movimento, a AI2 disse que Molmoact realmente vê seus arredores; entende as relações entre espaço, movimento e tempo; e planeja seus movimentos de acordo. O modelo gera tokens de raciocínio visible que transformam entradas de imagem 2D em planos espaciais 3D, permitindo que os robôs navegassem no mundo físico com maior inteligência e controle.

“A IA incorporada precisa de uma nova base que priorize o raciocínio, a transparência e a abertura”, afirmou Ali Farhadi, CEO da AI2. “Com o Molmoact, não estamos apenas lançando um modelo; estamos lançando as bases para uma nova period de IA, trazendo a inteligência de modelos poderosos de IA para o mundo físico. É um passo em direção à IA que pode raciocinar e navegar no mundo de maneiras mais alinhadas com o modo como os humanos se saem – e colaboram conosco com segurança e eficácia.”

AI2 é uma pesquisa de IA sem fins lucrativos baseada em Seattle instituto Com a missão de construir a IA para resolver os maiores problemas do mundo. Fundada em 2014 pelo cofundador do falecido Microsoft, Paul G. Allen, a AI2 disse que desenvolve basic Ai Pesquisa e novas aplicações por meio de modelos abertos em larga escala, dados abertos, robótica, plataformas de conservação e muito mais.

Ai2 afirma que Molmoact é o primeiro ‘modelo de raciocínio de ação’

Embora o raciocínio espacial não seja novo, a maioria dos sistemas modernos depende de arquiteturas fechadas e de ponta a ponta treinadas em conjuntos de dados proprietários maciços. Esses modelos são difíceis de reproduzir, caros de escalar e geralmente operam como caixas pretas opacas, de acordo com a AI2.

O instituto afirmou que Molmoact oferece uma abordagem fundamentalmente diferente. O modelo é treinado inteiramente em dados abertos, é projetado para transparência e é construído para a generalização do mundo actual. Seus traços de raciocínio visible passo a passo permitem que os usuários visualizem o que um robô planeja fazer e orientar seu comportamento em tempo actual, à medida que as condições mudam, disse a AI2.

Ai2 chamou Molmoact de “modelo de raciocínio de ação” (ARM) para indicar que pode interpretar instruções de linguagem pure de alto nível e razão através de uma sequência de ações físicas para realizá-las no mundo actual.

Os modelos de robótica de ponta a ponta tradicionais tratam as tarefas como um único passo opaco, disse o instituto. Em vez disso, os braços interpretam instruções de alto nível e as dividem em uma cadeia transparente de decisões espacialmente fundamentadas:

  • Percepção com reconhecimento 3D: fundamentar a compreensão do robô sobre seu ambiente usando profundidade e contexto espacial
  • Planejamento visible de waypoint: descrevendo uma trajetória de tarefas passo a passo no espaço da imagem
  • Decodificação de ação: convertendo o plano em comandos precisos e específicos de robôs

Esse raciocínio em camadas permite que o Molmoact interprete comandos como “Classificar esta pilha de lixo” não como uma única etapa, mas como uma série estruturada de subtarefas. O modelo reconhece a cena, os grupos objetos por tipo, os compreende um por um e repete.

https://www.youtube.com/watch?v=-_wag1x25oe

Ai2 constrói molmoact para escalar rapidamente

O Molmoact 7B, o primeiro em sua família modelo, foi treinado em um conjunto de dados com curadoria de cerca de 12.000 “episódios de robô” de ambientes do mundo actual, como cozinhas e quartos. A AI2 transformou essas demonstrações em seqüências de rendimento de robôs que expõem como as instruções complexas são mapeadas para ações fundamentadas e direcionadas a objetivos.

Juntamente com o modelo, a empresa está lançando o conjunto de dados Pós-Treinamento Molmoact, contendo ~ 12.000 “episódios de robô” distintos. Os pesquisadores da AI2 passaram meses selecionando vídeos de robôs realizando ações em diversas configurações domésticas. Isso inclui qualquer coisa, desde arranjar travesseiros em um sofá da sala até guardar a roupa em um quarto.

Apesar de seu forte desempenho, a AI2 disse que treinou o Molmoact com eficiência. Exigiu apenas 18 milhões de amostras, pré -treinamento em 256 Nvidia Unidades de processamento de gráficos H100 (GPUs) por cerca de 24 horas e ajuste fino em 64 GPUs por apenas mais dois.

Por outro lado, muitos modelos comerciais exigem centenas de milhões de amostras e muito mais computadas. No entanto, o Molmoact superou muitos desses sistemas em benchmarks -chave – incluindo uma taxa de sucesso de 71,9% em mais simples. Isso demonstrou que dados de alta qualidade e design atencioso podem superar os modelos treinados com muito mais dados e computação, disse a AI2.

AI2 mantém o Molmoact aberto e transparente

A AI2 disse que construiu o Molmoact para transparência. Os usuários podem visualizar os movimentos planejados do modelo antes da execução, com movimento As trajetórias sobrepostas sobre as imagens da câmera.

Além disso, os usuários podem ajustar esses planos usando linguagem pure ou correções rápidas de esboço em uma tela sensível ao toque-fornecendo controle de granulação fina e melhorando a segurança em ambientes do mundo actual, como casas, hospitais e armazéns.

De acordo com a missão da AI2, Molmoact está totalmente código aberto e reproduzível. O Instituto está lançando tudo o que é necessário para construir, executar e estender o modelo: oleodutos de treinamento, conjuntos de dados pré e pós-treinamento, pontos de verificação do modelo e referências de avaliação.

O modelo e Artefatos modelo – incluindo pontos de verificação de treinamento e evalas – estão disponíveis no repositório de rosto abraçando da AI2.

Aprenda sobre o mais recente da IA no Robobusiness

https://www.youtube.com/watch?v=o6x1_gqq1zy

Este ano Robobusinessque será nos dias 15 e 16 de outubro em Santa Clara, Califórnia, apresentará o fórum físico da IA. Essa faixa contará com conversas sobre uma série de tópicos, incluindo conversas sobre segurança e IA, treinamento de reforço de simulação para realidade, curadoria de dados, implantação de robôs movidos a IA e muito mais.

Os participantes podem ouvir especialistas da Destreza, Robótica da ABB, UC Berkeley, Roboto, Graymatter Robotics, Diligent Robotics e Dexman AI. Além disso, o present começará com um palestra De Deepu Talla, vice -presidente de robótica da Edge AI na Nvidia, sobre como a IA física está inaugurando uma nova period de robótica.

Robobusiness é o principal evento para desenvolvedores e fornecedores de robôs comerciais. O evento é produzido pela WTWH Media, que também produz O relatório do robôAssim, Armazém automatizadoe o Robotics Summit & Expo.

A conferência deste ano incluirá mais de 60 alto -falantesum workshop de startups, a competição anual de pitchfire e numerosos oportunidades de networking. Mais de 100 expositores no piso do present mostrará suas mais recentes tecnologias, produtos e serviços de capacitação para ajudar a resolver seus desafios de desenvolvimento de robótica.

As inscrições estão agora abertas para Robobusiness 2025.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *