O Google DeepMind introduziu a Gemini Robotics, novos modelos de IA projetados para trazer um raciocínio avançado e capacidades físicas para os robôs.
Construído com base na base de Gemini 2.0os novos modelos representam um salto para criar robôs que possam entender e interagir com o mundo físico de maneiras que antes estavam confinadas ao domínio digital.
Os novos modelos, Robótica Gemini e Gemini Robotics-er (Raciocínio incorporado), vise permitir que os robôs realizem uma gama mais ampla de tarefas do mundo actual, combinando recursos avançados de visão, linguagem e ação.
A Gemini Robotics pretende preencher a lacuna física digital
Até agora, modelos de IA como Gemini se destacaram em raciocínio multimodal em texto, imagens, áudio e vídeo. No entanto, suas habilidades têm sido amplamente limitadas a aplicativos digitais.
Para tornar os modelos de IA verdadeiramente úteis na vida cotidiana, eles devem possuir “raciocínio incorporado” (ou seja, a capacidade de compreender e reagir ao mundo físico, assim como os humanos.)
A Gemini Robotics aborda esse desafio, introduzindo ações físicas Como uma nova modalidade de saída, permitindo que o modelo controlasse diretamente os robôs. Enquanto isso, a Gemini Robotics-ER aprimora a compreensão espacial-abordando os roboticistas a integrar os recursos de raciocínio do modelo em seus próprios sistemas.
Esses modelos representam um passo elementary em direção a uma nova geração de robôs úteis. Ao combinar IA avançada com ação física, o Google Deepmind está desbloqueando o potencial de robôs para ajudar em uma variedade de configurações do mundo actual, de casas a locais de trabalho.
Principais características da Gemini Robotics
A Gemini Robotics foi projetada com três qualidades principais em mente: generalidadeAssim, interatividadee destreza. Esses atributos garantem que o modelo possa se adaptar a diversas situações, responder a ambientes dinâmicos e executar tarefas complexas com precisão.
Generalidade
A Gemini Robotics aproveita as capacidades de entendimento mundial do Gemini 2.0 para generalizar em novas situações. Isso significa que o modelo pode resolver tarefas que nunca encontrou antes, se adaptar a novos objetos e operar em ambientes desconhecidos. De acordo com o Google Deepmind, a Gemini Robotics mais do que duplica o desempenho dos modelos de ação de partida de última geração em benchmarks de generalização.
Interatividade
Para funcionar efetivamente no mundo actual, os robôs devem interagir perfeitamente com as pessoas e seus arredores. A Gemini Robotics se destaca nessa área, graças às suas capacidades avançadas de compreensão de idiomas. O modelo pode interpretar e responder às instruções de linguagem pure, monitorar seu ambiente para alterações e ajustar suas ações de acordo.
Por exemplo, se um objeto deslizar do alcance de um robô ou for movido por uma pessoa, a Gemini Robotics poderá repetir rapidamente e continuar a tarefa. Esse nível de adaptabilidade é essential para aplicações do mundo actual, onde a imprevisibilidade é a norma.
Destreza
Muitas tarefas diárias exigem habilidades motoras finas que tradicionalmente têm sido desafiadoras para os robôs. A Gemini Robotics, no entanto, demonstra destreza notável, permitindo que ele execute tarefas complexas e de várias etapas, como dobrar origami ou embalar um lanche em uma bolsa Ziploc.
Múltiplas modas para diversas aplicações
Um dos recursos de destaque da Gemini Robotics é sua capacidade de se adaptar a diferentes tipos de robôs. Enquanto o modelo foi treinado principalmente usando dados da plataforma robótica bi-brand Aloha 2também foi testado com sucesso em outras plataformas, incluindo o Franka Arms usado em laboratórios acadêmicos.
O Google DeepMind também está colaborando com o Apptronik para integrar a geminina robótica em seu robô humanóide, Apollo. Essa parceria visa desenvolver robôs capazes de concluir tarefas do mundo actual com eficiência e segurança sem precedentes.
A Gemini Robotics-ER é um modelo projetado especificamente para aprimorar os recursos de raciocínio espacial. Esse modelo permite que os roboticistas conectem as habilidades avançadas de raciocínio da Gemini com seus controladores de baixo nível existentes, permitindo tarefas como detecção de objetos, percepção 3D e manipulação precisa.
Por exemplo, quando mostrado uma caneca de café, a Gemini Robotics-ER pode determinar uma compreensão apropriada de dois dedos para pegá-la pela alça e planejar uma trajetória segura para abordá-la. O modelo atinge uma taxa de sucesso 2x-3x em comparação com o Gemini 2.0 em tarefas de ponta a ponta, tornando-o uma ferramenta poderosa para os roboticistas.
Priorizando a segurança e a responsabilidade
O Google DeepMind diz que a segurança é uma prioridade e posteriormente implementou uma abordagem em camadas para garantir a segurança física dos robôs e as pessoas ao seu redor. Isso inclui a integração de medidas clássicas de segurança – como prevenção de colisões e limitação de força – com os recursos avançados de raciocínio da Gêmeos.
Para avançar ainda mais a pesquisa de segurança, o Google Deepmind está lançando o conjunto de dados Asimov, um novo recurso para avaliar e melhorar a segurança semântica em IA incorporada e robótica. O conjunto de dados é inspirado em Isaac Asimov’s Três leis da robótica e visa ajudar os pesquisadores a desenvolver robôs mais seguros e mais alinhados com os valores humanos.
O Google DeepMind está trabalhando com um grupo selecionado de testadores-incluindo robôs ágil, robôs de agilidade, Boston Dynamics e ferramentas encantadas-para explorar os recursos do Gemini Robotics-ER. O Google diz que essas colaborações ajudarão a refinar os modelos e orientar seu desenvolvimento em direção a aplicativos do mundo actual.
Ao combinar o raciocínio avançado com a ação física, o Google Deepmind está abrindo caminho para um futuro em que os robôs podem ajudar os seres humanos em uma ampla gama de tarefas – das tarefas domésticas a aplicações industriais.
Veja também: ‘Bacha de golfe’ de robôs abordará ambientes perigosos


Deseja aprender mais sobre IA e Massive Knowledge dos líderes do setor? Confira Ai & Massive Knowledge Expo Ocorrendo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos principais, incluindo Conferência de Automação InteligenteAssim, BlockxAssim, Semana de Transformação Digitale Cyber Safety & Cloud Expo.
Discover outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.