Ensinando a um robô seus limites, para completar tarefas abertas com segurança | Notícias do MIT


Se alguém aconselha você a “conhecer seus limites”, provavelmente está sugerindo que você faça coisas como exercícios com moderação. Para um robô, porém, o lema representa restrições de aprendizagem, ou limitações de uma tarefa específica dentro do ambiente da máquina, para realizar tarefas de forma segura e correta.

Por exemplo, think about pedir a um robô para limpar sua cozinha quando ele não entende a física do ambiente. Como a máquina pode gerar um plano prático de várias etapas para garantir que o ambiente esteja impecável? Modelos de linguagem grande (LLMs) podem aproximá-los, mas se o modelo for treinado apenas em texto, é provável que perca detalhes importantes sobre as restrições físicas do robô, como até onde ele pode chegar ou se há obstáculos próximos a serem evitados. Atenha-se apenas aos LLMs e provavelmente acabará limpando manchas de massa do piso.

Para orientar os robôs na execução dessas tarefas abertas, os pesquisadores do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL) do MIT usaram modelos de visão para ver o que está perto da máquina e modelar suas restrições. A estratégia da equipe envolve um LLM esboçando um plano que é verificado em um simulador para garantir que seja seguro e realista. Caso essa sequência de ações seja inviável, o modelo de linguagem irá gerar um novo plano, até chegar a um que o robô possa executar.

Este método de tentativa e erro, que os pesquisadores chamam de “Planejamento para Robôs by way of Código para Satisfação Contínua de Restrições” (PRoC3S), testa planos de longo horizonte para garantir que eles satisfaçam todas as restrições e permite que um robô execute tarefas diversas como escrever letras individuais, desenhando uma estrela e classificando e colocando blocos em diferentes posições. No futuro, o PRoC3S poderá ajudar os robôs a realizar tarefas mais complexas em ambientes dinâmicos como casas, onde podem ser solicitados a realizar uma tarefa geral composta por muitas etapas (como “preparar o café da manhã”).

“LLMs e sistemas robóticos clássicos, como planejadores de tarefas e movimentos, não podem executar esses tipos de tarefas por conta própria, mas juntos, sua sinergia torna possível a resolução aberta de problemas”, diz o estudante de doutorado Nishanth Kumar SM ’24, co-líder autor de um novo artigo sobre PRoC3S. “Estamos criando uma simulação instantânea do que está ao redor do robô e testando muitos planos de ação possíveis. Os modelos de visão nos ajudam a criar um mundo digital muito realista que permite ao robô raciocinar sobre ações viáveis ​​para cada etapa de um plano de longo horizonte.”

O trabalho da equipe foi apresentado no mês passado em um artigo apresentado na Conferência sobre Aprendizagem de Robôs (CoRL) em Munique, Alemanha.

Ensinando a um robô seus limites, para completar tarefas abertas com segurança | Notícias do MIT

Reproduzir vídeo

Ensinando a um robô seus limites para tarefas abertas
MIT CSAIL

O método dos pesquisadores usa um LLM pré-treinado em textos da Web. Antes de pedir ao PRoC3S para realizar uma tarefa, a equipe forneceu ao seu modelo de linguagem um exemplo de tarefa (como desenhar um quadrado) relacionada à tarefa alvo (desenhar uma estrela). A tarefa de exemplo inclui uma descrição da atividade, um plano de longo horizonte e detalhes relevantes sobre o ambiente do robô.

Mas como esses planos se saíram na prática? Nas simulações, o PRoC3S desenhou com sucesso estrelas e letras oito em cada dez vezes cada. Ele também poderia empilhar blocos digitais em pirâmides e linhas e colocar itens com precisão, como frutas em um prato. Em cada uma dessas demonstrações digitais, o método CSAIL concluiu a tarefa solicitada de forma mais consistente do que abordagens comparáveis, como “LLM3” e “Código como Políticas”.

Em seguida, os engenheiros do CSAIL trouxeram sua abordagem para o mundo actual. Seu método desenvolveu e executou planos em um braço robótico, ensinando-o a colocar blocos em linhas retas. O PRoC3S também permitiu que a máquina colocasse blocos azuis e vermelhos em tigelas correspondentes e movesse todos os objetos para perto do centro de uma mesa.

Kumar e o co-autor Aidan Curtis SM ’23, que também é estudante de doutorado trabalhando no CSAIL, dizem que essas descobertas indicam como um LLM pode desenvolver planos mais seguros nos quais os humanos podem confiar para funcionar na prática. Os pesquisadores imaginam um robô doméstico que possa receber uma solicitação mais geral (como “traga-me alguns chips”) e descobrir com segurança as etapas específicas necessárias para executá-la. O PRoC3S poderia ajudar um robô a testar planos em um ambiente digital idêntico para encontrar um curso de ação funcional – e, mais importante, trazer para você um lanche saboroso.

Para trabalhos futuros, os pesquisadores pretendem melhorar os resultados usando um simulador de física mais avançado e expandir para tarefas mais elaboradas de horizonte mais longo por meio de técnicas de pesquisa de dados mais escaláveis. Além disso, eles planejam aplicar o PRoC3S a robôs móveis, como um quadrúpede, para tarefas que incluem caminhar e examinar os arredores.

“Usar modelos básicos como o ChatGPT para controlar as ações do robô pode levar a comportamentos inseguros ou incorretos devido a alucinações”, diz o pesquisador do AI Institute, Eric Rosen, que não está envolvido na pesquisa. “O PRoC3S aborda esse problema aproveitando modelos básicos para orientação de tarefas de alto nível, ao mesmo tempo em que emprega técnicas de IA que raciocinam explicitamente sobre o mundo para garantir ações comprovadamente seguras e corretas. Esta combinação de abordagens baseadas em planeamento e orientadas por dados pode ser a chave para o desenvolvimento de robôs capazes de compreender e executar de forma fiável uma gama mais ampla de tarefas do que é atualmente possível.”

Os coautores de Kumar e Curtis também são afiliados do CSAIL: o pesquisador de graduação do MIT Jing Cao e os professores do Departamento de Engenharia Elétrica e Ciência da Computação do MIT Leslie Pack Kaelbling e Tomás Lozano-Pérez. Seu trabalho foi apoiado, em parte, pela Nationwide Science Basis, pelo Escritório de Pesquisa Científica da Força Aérea, pelo Escritório de Pesquisa Naval, pelo Escritório de Pesquisa do Exército, pelo MIT Quest for Intelligence e pelo Instituto de IA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *