
O Google Deepmind disse que seus mais recentes modelos de robótica Gemini podem funcionar em várias modalidades de robôs. | Fonte: Google DeepMind
O Google DeepMind apresentou ontem dois modelos que reivindicou “desbloquear experiências agênticas com pensamento avançado” como um passo em direção à inteligência geral synthetic, ou AGI, para robôs. Seus novos modelos são:
- Gemini Robotics 1.5: O DeepMind disse que este é o seu modelo mais capaz de ação de visão de visão (VLA) até agora. Ele pode transformar informações visuais e instruções em comandos motores para um robô executar uma tarefa. Ele também pensa antes de agir e mostra seu processo, permitindo que os robôs avaliem e concluam tarefas complexas de maneira mais transparente. O modelo também aprende entre as modalidades, acelerando o aprendizado de habilidades.
- Gemini Robotics-er 1.5: A empresa disse que este é o seu modelo de linguagem de visão mais capaz (VLM). Ele argumenta sobre o mundo físico, chama nativamente as ferramentas digitais e cria planos detalhados e de várias etapas para concluir uma missão. O DeepMind disse que agora atinge o desempenho de ponta nos benchmarks de entendimento espacial.
DeepMind está tornando a Gemini Robotics-ER 1.5 disponível para os desenvolvedores através da Interface de Programação de Aplicativos (API) de Gemini em Google AI Studio. Gemini Robotics 1.5 está atualmente disponível para selecionar parceiros.
O empresa afirmou que os lançamentos marcam um marco importante para resolver a AGI no mundo físico. Ao introduzir capacidades agênticas, o Google disse que está indo além Modelos de IA que reagem a comandos e criação de sistemas que podem raciocinar, planejar, usar ativamente ferramentas e generalizar.
DeepMind projeta experiências agênticas para tarefas físicas
https://www.youtube.com/watch?v=amrxbio04kq
A maioria das tarefas diárias exige informações contextuais e várias etapas para concluir, tornando -as notoriamente desafiadoras para os robôs hoje. É por isso que o DeepMind projetou esses dois modelos para trabalhar juntos em uma estrutura Agentic.
Gemini Robotics-ER 1.5 orquestra as atividades de um robô, como um cérebro de alto nível. Deepmind disse que esse modelo se destaca no planejamento e na tomada de decisões lógicas em ambientes físicos. Possui entendimento espacial de ponta, interage na linguagem pure, estima seu sucesso e progresso e pode chamar ferramentas de forma nativa como a pesquisa do Google para procurar informações ou usar quaisquer funções definidas pelo usuário de terceiros.
O VLM dá Gemini Robotics 1.5 Instruções de linguagem pure para cada etapa, que usam sua visão e entendimento da linguagem para executar diretamente as ações específicas. A Gemini Robotics 1.5 também ajuda o robô a pensar em suas ações para resolver melhor tarefas semanticamente complexas e pode até explicar seus processos de pensamento na linguagem pure – tornando suas decisões mais transparentes.
Ambos os modelos são construídos na família Core Gemini de modelos e foram ajustados com diferentes conjuntos de dados para se especializar em seus respectivos papéis. Quando combinados, eles aumentam a capacidade do robô de generalizar para tarefas mais longas e ambientes mais diversos, disse DeepMind.
Os robôs podem entender ambientes e pensar antes de agir
https://www.youtube.com/watch?v=edyXEH8XQJM
O Gemini Robotics-ER 1.5 é um modelo de pensamento otimizado para o raciocínio incorporado, disse o Google DeepMind. A empresa afirmou que “atinge o desempenho de ponta nos benchmarks acadêmicos e internos, inspirado em casos de uso do mundo actual do nosso programa de testadores confiáveis”.
DeepMind avaliou a Gemini Robotics-er 1.5 em 15 parâmetros acadêmicos, incluindo a resposta de perguntas de raciocínio incorporado (Erqa) e Ponto-benchmedindo o desempenho do modelo sobre apontar, respostas à imagem de imagem e resposta a perguntas em vídeo.
Os modelos VLA tradicionalmente traduzem instruções ou planos linguísticos diretamente no movimento de um robô. A Gemini Robotics 1.5 vai um passo adiante, permitindo que um robô pense antes de agir, disse Deepmind. Isso significa que ele pode gerar uma sequência interna de raciocínio e análise em linguagem pure para executar tarefas que exigem várias etapas ou requerem um entendimento semântico mais profundo.
“Por exemplo, ao concluir uma tarefa como ‘Classifique minha roupa por cor’, o robô no vídeo abaixo pensa em diferentes níveis”, escreveu Deepmind. “Primeiro, ele entende que a classificação por cor significa colocar as roupas brancas na lixeira branca e outras cores na lixeira preta. Então pensa sobre as etapas a serem tomadas, como pegar o suéter vermelho e colocá -lo na lixeira preta e sobre o movimento detalhado envolvido, como mover um suéter mais perto para buscá -lo mais facilmente.”
Durante um processo de pensamento em vários níveis, o modelo VLA pode decidir transformar tarefas mais longas em segmentos mais simples e mais curtos que o robô pode executar com sucesso. Também ajuda o modelo a generalizar a resolver novas tarefas e a ser mais robusto às mudanças em seu ambiente.
Gêmeos aprende em todas as modalidades
https://www.youtube.com/watch?v=9fv5zyytkoq
Os robôs vêm em todas as formas e tamanhos, e têm diferentes capacidades de detecção e diferentes graus de liberdade, dificultando a transferência de movimentos aprendidos de um robô para outro.
Deepmind disse que a Gemini Robotics 1.5 mostra uma capacidade notável de aprender em diferentes modalidades. Ele pode transferir movimentos aprendidos de um robô para outro, sem precisar especializar o modelo para cada nova modalidade. Isso acelera o aprendizado de novos comportamentos, ajudando os robôs a se tornarem mais inteligentes e úteis.
Por exemplo, DeepMind observou que as tarefas apenas apresentadas ao Aloha 2 robô durante o treinamento, também apenas trabalhe em Apptronik’s Robô Humanóide, Apollo e Bi-Arma Franka Robô e vice -versa.
O DeepMind disse que a Gemini Robotics 1.5 implementa uma abordagem holística da segurança através do raciocínio semântico de alto nível, incluindo pensar em segurança antes de agir, garantindo um diálogo respeitoso com os seres humanos por meio de alinhamento com políticas de segurança de Gêmeos existentes e desencadeando sub-sistemas de segurança de baixo nível (por exemplo, para evitar colisões) a bordo do robô quando necessário.
Para orientar nosso desenvolvimento seguro de modelos de robótica Gemini, o DeepMind também está lançando uma atualização do Benchmark Asimov, uma coleção abrangente de conjuntos de dados para avaliar e melhorar a segurança semântica, com melhor cobertura de cauda, anotações aprimoradas, novos tipos de perguntas de segurança e novas modalidades de vídeo. Em suas avaliações de segurança no benchmark Asimov, a Gemini Robotics-ER 1.5 mostra o desempenho da ponta, e sua capacidade de pensar contribui significativamente para a melhor compreensão da segurança semântica e melhor adesão às restrições de segurança física.
Nota do editor: Robobusiness 2025, que será nos dias 15 e 16 de outubro em Santa Clara, Califórnia, incluirá faixas em AI física e humanóide robôs. As inscrições estão agora abertas.
