Usando IA generativa para diversificar campos de treinamento virtuais para robôs


Usando IA generativa para diversificar campos de treinamento virtuais para robôs O sistema de “geração de cenas orientáveis” cria cenas digitais de coisas como cozinhas, salas de estar e restaurantes que os engenheiros podem usar para simular muitas interações e cenários de robôs do mundo actual. Crédito da imagem: Imagem generativa de IA, cortesia dos pesquisadores. Veja uma versão animada da imagem aqui.

Por Alex Shipps

Chatbots como ChatGPT e Claude tiveram um aumento meteórico no uso nos últimos três anos porque podem ajudá-lo em uma ampla gama de tarefas. Esteja você escrevendo sonetos de Shakespeare, depurando código ou precisando de uma resposta para uma pergunta trivial obscura, os sistemas de inteligência synthetic parecem ter tudo para você. A fonte dessa versatilidade? Bilhões, ou mesmo trilhões, de pontos de dados textuais na Web.

No entanto, esses dados não são suficientes para ensinar um robô a ser um útil assistente doméstico ou de fábrica. Para compreender como manusear, empilhar e colocar vários arranjos de objetos em diversos ambientes, os robôs precisam de demonstrações. Você pode pensar nos dados de treinamento do robô como uma coleção de vídeos de instruções que orientam os sistemas em cada movimento de uma tarefa. Coletar essas demonstrações em robôs reais é demorado e não é perfeitamente repetível, por isso os engenheiros criaram dados de treinamento gerando simulações com IA (que nem sempre refletem a física do mundo actual) ou elaborando tediosamente cada ambiente digital do zero.

Pesquisadores do Laboratório de Ciência da Computação e Inteligência Synthetic do MIT (CSAIL) e do Toyota Analysis Institute podem ter encontrado uma maneira de criar os campos de treinamento diversos e realistas de que os robôs precisam. Deles “geração de cena dirigível“cria cenas digitais de coisas como cozinhas, salas de estar e restaurantes que os engenheiros podem usar para simular muitas interações e cenários do mundo actual. Treinada em mais de 44 milhões de salas 3D cheias de modelos de objetos como mesas e pratos, a ferramenta coloca os ativos existentes em novas cenas e, em seguida, refina cada uma delas em um ambiente fisicamente preciso e realista.

A geração de cenas orientáveis ​​cria esses mundos 3D “dirigindo” um modelo de difusão – um sistema de IA que gera um visible a partir de ruído aleatório – em direção a uma cena que você encontraria na vida cotidiana. Os pesquisadores usaram esse sistema generativo para “pintar” um ambiente, preenchendo elementos específicos em toda a cena. Você pode imaginar uma tela em branco se transformando repentinamente em uma cozinha repleta de objetos 3D, que são gradualmente reorganizados em uma cena que imita a física do mundo actual. Por exemplo, o sistema garante que um garfo não passe por uma tigela sobre uma mesa – uma falha comum em gráficos 3D conhecida como “recorte”, onde os modelos se sobrepõem ou se cruzam.

No entanto, como exatamente a geração de cenas orientáveis ​​orienta sua criação em direção ao realismo depende da estratégia que você escolher. Sua principal estratégia é a “busca na árvore de Monte Carlo” (MCTS), onde o modelo cria uma série de cenas alternativas, preenchendo-as de diferentes maneiras em direção a um objetivo específico (como tornar uma cena mais fisicamente realista ou incluir tantos itens comestíveis quanto possível). É usado pelo programa de IA AlphaGo para vencer oponentes humanos no Go (um jogo semelhante ao xadrez), pois o sistema considera possíveis sequências de movimentos antes de escolher a mais vantajosa.

“Somos os primeiros a aplicar o MCTS à geração de cenas, enquadrando a tarefa de geração de cenas como um processo sequencial de tomada de decisão”, diz Nicholas Pfaff, estudante de doutorado do Departamento de Engenharia Elétrica e Ciência da Computação do MIT, que é pesquisador do CSAIL e autor principal de um estudo. papel apresentando o trabalho. “Continuamos construindo sobre cenas parciais para produzir cenas melhores ou mais desejadas ao longo do tempo. Como resultado, o MCTS cria cenas que são mais complexas do que aquelas nas quais o modelo de difusão foi treinado.”

Numa experiência particularmente reveladora, MCTS adicionou o número máximo de objetos a uma simples cena de restaurante. Apresentava até 34 itens em uma mesa, incluindo enormes pilhas de pratos dim sum, após treinamento em cenas com apenas 17 objetos em média.

A geração de cenas orientáveis ​​também permite gerar diversos cenários de treinamento por meio de aprendizagem por reforço – essencialmente, ensinando um modelo de difusão para cumprir um objetivo por tentativa e erro. Depois de treinar com os dados iniciais, seu sistema passa por um segundo estágio de treinamento, onde você delineia uma recompensa (basicamente, um resultado desejado com uma pontuação indicando o quão perto você está desse objetivo). O modelo aprende automaticamente a criar cenas com pontuações mais altas, muitas vezes produzindo cenários bem diferentes daqueles em que foi treinado.

Os usuários também podem ativar o sistema diretamente digitando descrições visuais específicas (como “uma cozinha com quatro maçãs e uma tigela na mesa”). Então, a geração de cenas orientáveis ​​pode dar vida às suas solicitações com precisão. Por exemplo, a ferramenta seguiu com precisão as instruções dos usuários em taxas de 98% ao construir cenas de prateleiras de despensa e 86% para mesas de café da manhã bagunçadas. Ambas as marcas representam uma melhoria de pelo menos 10% em relação a métodos comparáveis, como “Mi Difusão” e “DiffuScene.”

O sistema também pode completar cenas específicas por meio de instruções ou direções de luz (como “criar um arranjo de cena diferente usando os mesmos objetos”). Você pode pedir para ele colocar maçãs em vários pratos sobre a mesa da cozinha, por exemplo, ou colocar jogos de tabuleiro e livros em uma prateleira. É essencialmente “preencher o espaço em branco” ao encaixar itens em espaços vazios, mas preservando o resto da cena.

Segundo os pesquisadores, a força do projeto reside na capacidade de criar muitas cenas que os roboticistas podem realmente usar. “Um dos principais insights de nossas descobertas é que não há problema em que as cenas que pré-treinamos não se pareçam exatamente com as cenas que realmente queremos”, diz Pfaff. “Usando nossos métodos de direção, podemos ir além dessa ampla distribuição e amostrar uma ‘melhor’. Em outras palavras, gerando cenas diversas, realistas e alinhadas às tarefas nas quais realmente queremos treinar nossos robôs.”

Cenas tão vastas tornaram-se campos de testes onde puderam gravar um robô digital interagindo com diferentes itens. A máquina colocou cuidadosamente garfos e facas em um porta-talheres, por exemplo, e reorganizou o pão em pratos em várias configurações 3D. Cada simulação parecia fluida e realista, lembrando os robôs adaptáveis ​​do mundo actual que a geração de cena dirigível poderia ajudar a treinar, um dia.

Embora o sistema possa ser um caminho encorajador na geração de diversos dados de treinamento para robôs, os pesquisadores dizem que seu trabalho é mais uma prova de conceito. No futuro, eles gostariam de usar IA generativa para criar objetos e cenas inteiramente novos, em vez de usar uma biblioteca fixa de recursos. Eles também planejam incorporar objetos articulados que o robô possa abrir ou girar (como armários ou potes cheios de comida) para tornar as cenas ainda mais interativas.

Para tornar seus ambientes virtuais ainda mais realistas, Pfaff e seus colegas podem incorporar objetos do mundo actual usando uma biblioteca de objetos e cenas extraídas de imagens na web e usando seu trabalho anterior em “Real2Sim escalável.” Ao expandir o quão diversificados e realistas podem ser os campos de testes de robôs construídos por IA, a equipe espera construir uma comunidade de usuários que criará muitos dados, que poderão então ser usados ​​como um enorme conjunto de dados para ensinar diferentes habilidades a robôs hábeis.

“Atualmente, criar cenas realistas para simulação pode ser uma tarefa bastante desafiadora; a geração processual pode produzir prontamente um grande número de cenas, mas provavelmente não serão representativas dos ambientes que o robô encontraria no mundo actual. Criar manualmente cenas personalizadas é demorado e caro”, diz Jeremy Binagia, cientista aplicado da Amazon Robotics que não esteve envolvido no artigo. “A geração de cenas orientáveis ​​oferece uma abordagem melhor: treinar um modelo generativo em uma grande coleção de cenas pré-existentes e adaptá-lo (usando uma estratégia como aprendizado por reforço) para aplicações downstream específicas. Em comparação com trabalhos anteriores que aproveitam um modelo de linguagem de visão pronto para uso ou se concentram apenas na organização de objetos em uma grade 2D, esta abordagem garante a viabilidade física e considera a tradução e rotação 3D completa, permitindo a geração de cenas muito mais interessantes. “

“A geração de cenas orientáveis ​​com pós-treinamento e pesquisa em tempo de inferência fornece uma estrutura nova e eficiente para automatizar a geração de cenas em escala”, diz Rick Cory SM ’08, PhD ’10, roboticista do Toyota Analysis Institute, que também não esteve envolvido no artigo. “Além disso, pode gerar cenas ‘nunca antes vistas’ que são consideradas importantes para tarefas posteriores. No futuro, combinar esta estrutura com vastos dados da Web poderá desbloquear um marco importante para o treinamento eficiente de robôs para implantação no mundo actual.”

Pfaff escreveu o artigo com o autor sênior Russ Tedrake, professor Toyota de Engenharia Elétrica e Ciência da Computação, Aeronáutica e Astronáutica e Engenharia Mecânica no MIT; vice-presidente sênior de grandes modelos de comportamento do Toyota Analysis Institute; e investigador principal do CSAIL. Outros autores foram o pesquisador de robótica do Toyota Analysis Institute Hongkai Dai SM ’12, PhD ’16; o líder da equipe e cientista pesquisador sênior, Sergey Zakharov; e Shun Iwase, estudante de doutorado da Carnegie Mellon College. O seu trabalho foi apoiado, em parte, pela Amazon e pelo Toyota Analysis Institute. Os pesquisadores apresentaram seu trabalho na Conferência sobre Aprendizagem de Robôs (CoRL) em setembro.


Notícias do MIT

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *