Dizer que alguém não pode andar e mascar chiclete ao mesmo tempo pode ser uma expressão impolite, mas quando se trata de robôs é mais ou menos verdade. É claro que a expressão não deve ser interpretada literalmente – os robôs mascadores de chicletes não são exatamente muito procurados – mas existem todos os tipos de aplicações para robôs que podem, por exemplo, andar e pegar coisas, ou trabalhar com ferramentas, tudo ao mesmo tempo. mesmo tempo. Mas isto levanta tantas questões complexas que o problema ainda não foi resolvido de forma eficaz.
Os robôs multitarefa de hoje têm dificuldade quando se trata de encadear uma longa série de ações, como seria necessário ao realizar tarefas complexas e de longo horizonte. Eles também tendem a ter muita dificuldade quando se trata de generalizar para novas situações. As coisas podem parecer bem no laboratório, mas quando o robô é solto na natureza, rapidamente fica claro que ele não pode andar e mascar chiclete ao mesmo tempo, por assim dizer.
Uma visão geral da arquitetura do sistema (📷: R. Qiu et al.)
As abordagens atuais para a manipulação de robôs móveis se enquadram em duas categorias: métodos modulares e abordagens de aprendizagem ponta a ponta. Os métodos modulares separam a percepção (reconhecimento de objetos) e o planejamento, mas dependem do planejamento de movimento baseado em heurística, o que os limita a tarefas simples como escolher e colocar, apesar dos avanços na percepção generalizável usando modelos como o CLIP. As abordagens ponta a ponta unificam a percepção e a acção através de políticas aprendidas, permitindo comportamentos complexos, mas têm dificuldade em generalizar para novos ambientes e sofrem de erros agravados durante tarefas longas, especialmente com aprendizagem por imitação.
O Estrutura WildLMaapresentado recentemente por uma equipe da UC San Diego, do MIT e da NVIDIA, aborda as limitações das abordagens existentes, combinando o aprendizado robusto de habilidades com o planejamento eficaz de tarefas para manipulação de robôs móveis.
Uma visão de alto nível da operação do planejador (📷: R. Qiu et al.)
O design da estrutura integra dois componentes principais – WildLMa-Talent para aquisição de habilidades e WildLMa-Planner para execução de tarefas. WildLMa-Talent concentra-se no aprendizado de habilidades atômicas e reutilizáveis por meio da aprendizagem por imitação condicionada pela linguagem. Ele usa modelos de linguagem de visão pré-treinados, como CLIP, para mapear consultas de linguagem (por exemplo, “encontre a garrafa vermelha”) para representações visuais, aprimoradas por uma técnica de reparametrização que gera mapas de probabilidade para melhorar a precisão. As habilidades são ensinadas por meio de teleoperação de realidade digital, onde demonstrações humanas de ações complexas são capturadas usando um controlador de baixo nível aprendido, expandindo as capacidades do robô e reduzindo os custos de demonstração. Uma vez adquiridas essas habilidades, o WildLMa-Planner as integra em uma biblioteca e se conecta a grandes modelos de linguagem para interpretar instruções humanas e sequenciar as habilidades apropriadas para tarefas de várias etapas.
WildLMa foi avaliado em uma série de experimentos usando um robô quadrúpede Unitree B1 equipado com braço Z1, pinça personalizada, múltiplas câmeras e LiDAR para navegação e manipulação. A estrutura foi testada em dois ambientes: em distribuição, onde os arranjos de objetos e ambientes eram semelhantes ao treinamento, e fora de distribuição (OOD), que introduziu variações no posicionamento dos objetos, texturas e planos de fundo. As comparações foram feitas com várias linhas de base, incluindo métodos de aprendizagem por imitação, abordagens de aprendizagem por reforço e técnicas de apreensão de disparo zero. Os resultados mostraram que o WildLMa alcançou as maiores taxas de sucesso, especialmente em cenários OOD, devido às suas capacidades aprimoradas de generalização de habilidades. Ele também demonstrou desempenho superior em tarefas de longo horizonte e aplicações do mundo actual, lidando com perturbações de maneira eficaz.
Ao divulgar o seu trabalho, a equipe espera que eles motivem pesquisas futuras nesta área e nos aproximem da implantação de robôs práticos e multitarefa que possam nos ajudar em tarefas do mundo actual.