O sistema de treinamento LucidSim ajuda os robôs a fechar a lacuna do Sim2Real


Ouça este artigo

O sistema de treinamento LucidSim ajuda os robôs a fechar a lacuna do Sim2Real

Para os roboticistas, um desafio está acima de todos os outros: generalização – a capacidade de criar máquinas que possam se adaptar a qualquer ambiente ou condição. Desde a década de 1970, o campo evoluiu da escrita de programas sofisticados para o uso de aprendizagem profunda, ensinando robôs a aprender diretamente com o comportamento humano. Mas permanece um gargalo crítico: a qualidade dos dados. Para melhorar, os robôs precisam encontrar cenários que ultrapassem os limites de suas capacidades, operando no limite de seu domínio. Este processo tradicionalmente requer supervisão humana, com os operadores desafiando cuidadosamente os robôs para expandir as suas capacidades. À medida que os robôs se tornam mais sofisticados, esta abordagem prática enfrenta um problema crescente: a procura de dados de formação de alta qualidade ultrapassa em muito a capacidade humana de os fornecer.

Uma equipe de pesquisadores do MIT CSAIL desenvolveu uma abordagem para treinamento de robôs que poderia acelerar significativamente a implantação de máquinas inteligentes e adaptáveis ​​em ambientes do mundo actual. O novo sistema, denominado “LucidSim”, usa avanços recentes em IA generativa e simuladores de física para criar ambientes de treinamento virtuais diversos e realistas, ajudando os robôs a alcançar desempenho de nível especializado em tarefas difíceis sem quaisquer dados do mundo actual.

LucidSim combina simulação física com modelos generativos de IA, abordando um dos desafios mais persistentes da robótica: transferir habilidades aprendidas em simulação para o mundo actual.

“Um desafio elementary na aprendizagem de robôs tem sido a ‘lacuna entre o simulador e o actual’ – a disparidade entre os ambientes de treinamento simulados e o mundo actual complexo e imprevisível”, disse Ge Yang, associado de pós-doutorado do MIT CSAIL, pesquisador principal do LucidSim. “As abordagens anteriores frequentemente dependiam de sensores de profundidade, o que simplificava o problema, mas deixava passar complexidades cruciais do mundo actual.”

O sistema multifacetado é uma mistura de diferentes tecnologias. Basicamente, o LucidSim usa grandes modelos de linguagem para gerar várias descrições estruturadas de ambientes. Essas descrições são então transformadas em imagens usando modelos generativos. Para garantir que essas imagens reflitam a física do mundo actual, um simulador de física subjacente é usado para orientar o processo de geração.

Relacionado: Como a Agility Robotics fechou a lacuna do Sim2Real para o Digit

Nascimento de uma ideia: dos burritos às inovações

A inspiração para o LucidSim veio de um lugar inesperado: uma conversa fora da Beantown Taqueria em Cambridge, MA.

​​”Queríamos ensinar aos robôs equipados com visão como melhorar usando suggestions humano. Mas então percebemos que, para começar, não tínhamos uma política puramente baseada na visão”, disse Alan Yu, estudante de graduação do MIT e co-líder do LucidSim. “Continuamos conversando sobre isso enquanto caminhávamos pela rua e então paramos em frente à taqueria por cerca de meia hora. Foi aí que tivemos o nosso momento.”


SITE AD para a chamada para apresentações do Robotics Summit 2025.
Inscreva-se para falar.


Para elaborar seus dados, a equipe gerou imagens realistas extraindo mapas de profundidade, que fornecem informações geométricas, e máscaras semânticas, que rotulam diferentes partes de uma imagem, da cena simulada. Porém, eles rapidamente perceberam que com um controle rígido na composição do conteúdo da imagem, o modelo produziria imagens semelhantes que não eram diferentes umas das outras usando o mesmo immediate. Então, eles desenvolveram uma maneira de obter diversos prompts de texto do ChatGPT.

Essa abordagem, no entanto, resultou apenas em uma única imagem. Para fazer vídeos curtos e coerentes que sirvam como pequenas “experiências” para o robô, os cientistas transformaram um pouco de magia de imagem em outra nova técnica criada pela equipe, chamada “Desires In Movement (DIM)”. O sistema calcula os movimentos de cada pixel entre os quadros, para distorcer uma única imagem gerada em um vídeo curto e com vários quadros. Desires In Movement faz isso considerando a geometria 3D da cena e as mudanças relativas na perspectiva do robô.

“Superamos a randomização de domínio, um método desenvolvido em 2017 que aplica cores e padrões aleatórios a objetos no ambiente, que ainda é considerado o método preferido atualmente”, diz Yu. “Embora essa técnica gere dados diversos, falta realismo. LucidSim aborda problemas de diversidade e realismo. É emocionante que mesmo sem ver o mundo actual durante o treinamento, o robô possa reconhecer e navegar por obstáculos em ambientes reais.”

A equipe está particularmente entusiasmada com o potencial de aplicação do LucidSim em domínios fora da locomoção quadrúpede e do parkour, seu principal ambiente de testes. Um exemplo é a manipulação móvel, onde um robô móvel é encarregado de manusear objetos em uma área aberta e também a percepção das cores é crítica.

“Hoje, esses robôs ainda aprendem com demonstrações do mundo actual”, disse Yang. “Embora coletar demonstrações seja fácil, dimensionar uma configuração de teleoperação robótica do mundo actual para milhares de habilidades é um desafio porque um ser humano precisa configurar fisicamente cada cena. Esperamos tornar isso mais fácil e, portanto, qualitativamente mais escalável, movendo a coleta de dados para um ambiente digital.”

um robô quadrúpede aprendeu a navegar em novos ambientes usando IA generativa.

Os pesquisadores do MIT usaram um quadrúpede Unitree Robotics Go1. | Crédito: MIT CSAIL

A equipe testou o LucidSim em uma alternativa, onde um professor especialista demonstra a habilidade com a qual o robô pode aprender. Os resultados foram surpreendentes: os robôs treinados pelo especialista tiveram dificuldades, obtendo sucesso apenas em 15% das vezes – e mesmo quadruplicando a quantidade de dados de treinamento de especialistas mal moveu o ponteiro. Mas quando os robôs coletaram seus próprios dados de treinamento por meio do LucidSim, a história mudou drasticamente. Apenas dobrar o tamanho do conjunto de dados catapultou as taxas de sucesso para 88%.

“E fornecer mais dados ao nosso robô melhora monotonicamente seu desempenho – eventualmente, o aluno se torna o especialista”, disse Yang.

“Um dos principais desafios na transferência de sim para actual para robótica é alcançar realismo visible em ambientes simulados”, disse Shuran Tune, professor assistente de Engenharia Elétrica da Universidade de Stanford, que não esteve envolvido na pesquisa. “A estrutura LucidSim oferece uma solução elegante ao usar modelos generativos para criar dados visuais diversos e altamente realistas para qualquer simulação. Este trabalho poderia acelerar significativamente a implantação de robôs treinados em ambientes virtuais para tarefas do mundo actual.”

Das ruas de Cambridge à vanguarda da pesquisa robótica, LucidSim está abrindo caminho para uma nova geração de máquinas inteligentes e adaptáveis ​​– aquelas que aprendem a navegar em nosso mundo complexo sem nunca pisar nele.

Yu e Yang escreveram o papel com quatro colegas afiliados do CSAIL: pós-doutorado em engenharia mecânica Ran Choi; o pesquisador de graduação Yajvan Ravan; John Leonard, Samuel C. Collins Professor de Engenharia Mecânica e Oceânica no Departamento de Engenharia Mecânica do MIT; e o professor associado do MIT, Phillip Isola.

Nota do editor: Este artigo foi republicado em MIT CSAIL

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *