Os robôs aprendem a esculpir areia usando o aprendizado de reforço


Um estudo publicado em arxiv detalha como os pesquisadores no Universidade de Bonn desenvolveram uma estrutura de aprendizado de reforço que permite que os robôs manipulem meios granulares, como areia em formas de destino. O sistema treina um braço robótico com um efeito ultimate cúbico e uma câmera estéreo para remodelar o materials solto em formas, incluindo retângulos, formas L, polígonos e negativos de fragmentos de afresco arqueológicos. As experiências mostraram precisão no nível de milímetro, com o agente treinado superando duas abordagens de linha de base e transferindo com sucesso da simulação para um robô físico sem treinamento adicional.

Os materiais granulares representam dificuldades para a robótica devido ao seu espaço de configuração de alta dimensão e dinâmica instável. As abordagens baseadas em regras geralmente falham, enquanto as simulações de partículas são computacionalmente caras. Os pesquisadores enfrentaram esses desafios projetando espaços de observação compactos e funções de recompensa que guiaram o aprendizado. As políticas visuais foram treinadas usando críticos quantil truncados (TQC), um algoritmo de aprendizado de reforço da política. As imagens de profundidade de uma câmera estéreo Zed 2i foram convertidas em mapas de altura, permitindo que o robô examine as estruturas atuais e de metas em uma forma adequada para treinamento eficiente.

A tarefa do robô é manipular a mídia granular com seu efetor final cúbico para moldá-lo o mais próximo possível das configurações de gols desejadas. Imagem via Universidade de Bonn.Os robôs aprendem a esculpir areia usando o aprendizado de reforço
A tarefa do robô é manipular a mídia granular com seu efetor ultimate cúbico para moldá-lo o mais próximo possível das configurações de gols desejadas. Imagem by way of Universidade de Bonn.

O sistema foi avaliado em relação a uma política aleatória e a uma linha de base do planejamento do caminho da cobertura de Boustrophedon. Em 400 formas de gols, o agente instruído superou consistentemente os dois métodos. Usando a formulação Delta Recompensa (Delta), o robô alcançou uma diferença média de altura de 3,4 milímetros em comparação com 4,8 milímetros para o método de planejamento e 7,2 milímetros para movimento aleatório. O tempo de execução também foi mais curto, com média de 23,5 etapas versus 44 para a linha de base do planejamento do caminho. O agente também modificou 97 % das células relevantes na área de metas, em comparação com 54 % para movimento aleatório. As etapas de execução foram definidas como o número de ações até que o efeito ultimate deixasse o meio granular para três etapas consecutivas. Os testes estatísticos confirmaram que a política da Delta superou significativamente todas as alternativas.

O projeto envolveu o Laboratório de robôs humanóideso Laboratório de sistemas inteligentes autônomose o Centro de Robótica na Universidade de Bonn, trabalhando com o Instituto Lamarr de aprendizado de máquina e inteligência synthetic. O financiamento veio do Reparo da Comissão Europeia Programa abaixo Horizon 2020 E da Alemanha Ministério Federal de Educação e Pesquisa através do Instituto de Robótica Alemanha iniciativa.

Um processo de treinamento é empregado para permitir que os agentes manipulem meios granulares usando entradas sensoriais. Uma política visual é treinada por meio de aprendizado de reforço para realizar configurações de forma de metas com base na diferença entre o mapa de altura atual e desejado. Imagem via Universidade de Bonn.Um processo de treinamento é empregado para permitir que os agentes manipulem meios granulares usando entradas sensoriais. Uma política visual é treinada por meio de aprendizado de reforço para realizar configurações de forma de metas com base na diferença entre o mapa de altura atual e desejado. Imagem via Universidade de Bonn.
Um processo de treinamento é empregado para permitir que os agentes manipulem meios granulares usando entradas sensoriais. Imagem by way of Universidade de Bonn.

Outras experiências examinaram as opções de projeto. Quando a recompensa do movimento da área de objetivos foi removida, os agentes evitaram os comportamentos de manipulação completamente, com desempenho melhor do que as linhas de base aleatórias. As ablações do extrator de recursos mostraram que o codificador proposto baseado em portão alcançou o melhor desempenho, com um erro médio de 3,4 milímetros em comparação com 4,6 milímetros ao confiar diretamente nas imagens de profundidade. As comparações de algoritmo confirmaram que o TQC alcançou convergência estável, enquanto que o ator de ator macio-crítico e o gradiente de política determinística profunda e gêmea falhou em convergir. Um website suplementar vinculado no artigo fornece detalhes, vídeos e código adicionais.

Implantação em a Braço robótico ur5e validou a abordagem fora da simulação. Apesar do ruído do sensor e de uma superfície inicial desigual, o robô reproduziu formas alvo, como retângulos com resultados semelhantes aos observados na simulação. A capacidade de transferir diretamente dos ambientes de treinamento sintético para a execução do mundo actual demonstrou a robustez da estrutura.

Da esquerda para a direita, a cena 3D reconstruída em simulação. Imagem via Universidade de Bonn.Da esquerda para a direita, a cena 3D reconstruída em simulação. Imagem via Universidade de Bonn.
Da esquerda para a direita, a cena 3D reconstruída em simulação. Imagem by way of Universidade de Bonn.

A pesquisa sobre a manipulação da mídia granular abrange a escavação, classificação e manuseio extraterrestre do solo. Muitas abordagens dependem de simulações de elementos finitos ou discretos de imitação computacionalmente ou de imitação de aprendizado de pipelines adaptados a tarefas específicas. Ao combinar representações eficientes de mapas de altura com formulações de recompensa cuidadosamente projetadas, a equipe de Bonn demonstrou que o aprendizado de reforço pode moldar adaptativamente a mídia granular sem regras artesanais.

Os autores concluem que seu método supera consistentemente linhas de base tradicionais e estabelece uma rota viável para a manipulação robótica adaptativa de materiais deformáveis.

Espaços limitados permanecem para AMA: Energia 2025. Registre -se agora para participar da conversa sobre o futuro da energia e da fabricação aditiva.

Pronto para descobrir quem ganhou o 2024 Prêmios da indústria de impressão 3D?

Assine o Boletim da indústria de impressão 3D e siga -nos LinkedIn Para se manter atualizado com as últimas notícias e insights.

A imagem em destaque mostra que um processo de treinamento é empregado para permitir que os agentes manipulem meios granulares usando entradas sensoriais. Imagem by way of Universidade de Bonn.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *