Robôs domésticos de precisão aprendem com real-para-sim-para-real | MIT Information



Robôs domésticos de precisão aprendem com real-para-sim-para-real | MIT Information

No topo da lista de desejos de muitas pessoas que trabalham com automação está uma tarefa que consome muito tempo: tarefas domésticas.

O moonshot de muitos roboticistas é preparar a combinação adequada de {hardware} e software program para que uma máquina possa aprender políticas “generalistas” (as regras e estratégias que orientam o comportamento do robô) que funcionam em todos os lugares, sob todas as condições. Realisticamente, porém, se você tem um robô em casa, provavelmente não se importa muito com ele trabalhando para seus vizinhos. Pesquisadores do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL) do MIT decidiram, com isso em mente, tentar encontrar uma solução para treinar facilmente políticas robustas de robôs para ambientes muito específicos.

“Nosso objetivo é que os robôs tenham um desempenho excepcionalmente bom sob perturbações, distrações, condições de iluminação variáveis ​​e mudanças nas poses dos objetos, tudo dentro de um único ambiente”, diz Marcel Torne Villasevil, assistente de pesquisa do MIT CSAIL no laboratório Unbelievable AI e autor principal de um estudo recente. papel sobre o trabalho. “Propomos um método para criar gêmeos digitais em tempo actual usando os últimos avanços em visão computacional. Com apenas seus telefones, qualquer um pode capturar uma réplica digital do mundo actual, e os robôs podem treinar em um ambiente simulado muito mais rápido do que o mundo actual, graças à paralelização de GPU. Nossa abordagem elimina a necessidade de engenharia de recompensa extensiva, aproveitando algumas demonstrações do mundo actual para dar início ao processo de treinamento.”

Levando seu robô para casa

O RialTo, é claro, é um pouco mais complicado do que apenas um simples aceno de um telefone e (bum!) bot doméstico a seu serviço. Ele começa usando seu dispositivo para escanear o ambiente alvo usando ferramentas como NeRFStudio, ARCode ou Polycam. Uma vez que a cena é reconstruída, os usuários podem carregá-la na interface do RialTo para fazer ajustes detalhados, adicionar juntas necessárias aos robôs e muito mais.

A cena refinada é exportada e trazida para o simulador. Aqui, o objetivo é desenvolver uma política baseada em ações e observações do mundo actual, como uma para pegar uma xícara em um balcão. Essas demonstrações do mundo actual são replicadas na simulação, fornecendo alguns dados valiosos para o aprendizado por reforço. “Isso ajuda a criar uma política forte que funciona bem tanto na simulação quanto no mundo actual. Um algoritmo aprimorado usando aprendizado por reforço ajuda a orientar esse processo, para garantir que a política seja eficaz quando aplicada fora do simulador”, diz Torne.

Os testes mostraram que o RialTo criou políticas fortes para uma variedade de tarefas, seja em ambientes de laboratório controlados ou em ambientes mais imprevisíveis do mundo actual, melhorando 67 por cento em relação ao aprendizado de imitação com o mesmo número de demonstrações. As tarefas envolviam abrir uma torradeira, colocar um livro em uma prateleira, colocar um prato em um suporte, colocar uma caneca em uma prateleira, abrir uma gaveta e abrir um armário. Para cada tarefa, os pesquisadores testaram o desempenho do sistema em três níveis crescentes de dificuldade: randomizando poses de objetos, adicionando distrações visuais e aplicando perturbações físicas durante as execuções de tarefas. Quando pareado com dados do mundo actual, o sistema superou os métodos tradicionais de aprendizado de imitação, especialmente em situações com muitas distrações visuais ou interrupções físicas.

“Esses experimentos mostram que, se nos importamos em ser muito robustos para um ambiente específico, a melhor ideia é alavancar gêmeos digitais em vez de tentar obter robustez com coleta de dados em larga escala em ambientes diversos”, diz Pulkit Agrawal, diretor do Unbelievable AI Lab, professor associado de engenharia elétrica e ciência da computação (EECS) do MIT, pesquisador principal do MIT CSAIL e autor sênior do trabalho.

Em relação às limitações, o RialTo atualmente leva três dias para ser totalmente treinado. Para acelerar isso, a equipe menciona melhorar os algoritmos subjacentes e usar modelos de base. O treinamento em simulação também tem suas limitações, e atualmente é difícil fazer transferência de simulação para actual sem esforço e simular objetos ou líquidos deformáveis.

O próximo nível

Então, o que vem a seguir para a jornada da RialTo? Com ​​base em esforços anteriores, os cientistas estão trabalhando para preservar a robustez contra várias perturbações, ao mesmo tempo em que melhoram a adaptabilidade do modelo a novos ambientes. “Nosso próximo esforço é essa abordagem para usar modelos pré-treinados, acelerando o processo de aprendizado, minimizando a entrada humana e alcançando capacidades de generalização mais amplas”, diz Torne.

“Estamos incrivelmente entusiasmados com nosso conceito de programação de robôs ‘on-the-fly’, onde robôs podem escanear seu ambiente de forma autônoma e aprender como resolver tarefas específicas em simulação. Embora nosso método atual tenha limitações — como exigir algumas demonstrações iniciais por um humano e tempo de computação significativo para treinar essas políticas (até três dias) — vemos isso como um passo significativo para alcançar o aprendizado e a implantação de robôs ‘on-the-fly’”, diz Torne. “Essa abordagem nos aproxima de um futuro onde robôs não precisarão de uma política preexistente que cubra todos os cenários. Em vez disso, eles podem aprender rapidamente novas tarefas sem interação extensiva no mundo actual. Na minha opinião, esse avanço pode acelerar a aplicação prática da robótica muito mais cedo do que depender apenas de uma política common e abrangente.”

“Para implantar robôs no mundo actual, os pesquisadores tradicionalmente contam com métodos como aprendizado de imitação de dados de especialistas, que podem ser caros, ou aprendizado por reforço, que pode ser inseguro”, diz Zoey Chen, uma estudante de doutorado em ciência da computação na Universidade de Washington que não estava envolvida no artigo. “O RialTo aborda diretamente as restrições de segurança do RL (aprendizado de robôs) do mundo actual e as restrições de dados eficientes para métodos de aprendizado orientados por dados, com seu novo pipeline real-para-sim-para-real. Este novo pipeline não apenas garante um treinamento seguro e robusto em simulação antes da implantação no mundo actual, mas também melhora significativamente a eficiência da coleta de dados. O RialTo tem o potencial de aumentar significativamente o aprendizado de robôs e permite que os robôs se adaptem a cenários complexos do mundo actual de forma muito mais eficaz.”

“A simulação demonstrou capacidades impressionantes em robôs reais ao fornecer dados baratos, possivelmente infinitos, para aprendizado de políticas”, acrescenta Marius Memmel, um aluno de doutorado em ciência da computação na Universidade de Washington que não estava envolvido no trabalho. “No entanto, esses métodos são limitados a alguns cenários específicos, e construir as simulações correspondentes é caro e trabalhoso. O RialTo fornece uma ferramenta fácil de usar para reconstruir ambientes do mundo actual em minutos em vez de horas. Além disso, ele faz uso extensivo de demonstrações coletadas durante o aprendizado de políticas, minimizando a carga do operador e reduzindo a lacuna sim2real. O RialTo demonstra robustez para poses e perturbações de objetos, mostrando um desempenho incrível no mundo actual sem exigir construção extensiva de simulador e coleta de dados.”

Torne escreveu este artigo junto com os autores seniores Abhishek Gupta, professor assistente na Universidade de Washington, e Agrawal. Quatro outros membros do CSAIL também são creditados: o aluno de doutorado da EECS Anthony Simeonov SM ’22, o assistente de pesquisa Zechu Li, a aluna de graduação April Chan e Tao Chen PhD ’24. Os membros do Unbelievable AI Lab e do WEIRD Lab também contribuíram com suggestions e suporte valiosos no desenvolvimento deste projeto.

Este trabalho foi apoiado, em parte, pelo Sony Analysis Award, o governo dos EUA e a Hyundai Motor Co., com assistência do WEIRD (Washington Embodied Intelligence and Robotics Improvement) Lab. Os pesquisadores apresentaram seu trabalho na conferência Robotics Science and Methods (RSS) no início deste mês.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *