
A lacuna da destreza: da mão humana à mão robótica
Observe sua própria mão. Enquanto você lê isso, ele está segurando o telefone ou clicando com o mouse com uma graça aparentemente fácil. Com mais de 20 graus de liberdade, as mãos humanas possuem uma destreza extraordinária, que pode segurar um martelo pesado, girar uma chave de fenda ou ajustar instantaneamente quando algo escorrega.
Com uma estrutura semelhante à das mãos humanas, as mãos robóticas hábeis oferecem um grande potencial:
Adaptabilidade common: Manuseie vários objetos, desde agulhas delicadas até bolas de basquete, adaptando-se a cada desafio único em tempo actual.
Manipulação fina: Execução de tarefas complexas como rotação de chaves, uso de tesouras e procedimentos cirúrgicos que são impossíveis com pinças simples.
Transferência de habilidades: A sua semelhança com as mãos humanas torna-os ideais para aprender a partir de vastos dados de demonstração humana.
Apesar deste potencial, a maioria dos robôs atuais ainda dependem de simples “garras” devido às dificuldades de manipulação hábil. As pinças em forma de alicate são capazes apenas de tarefas repetitivas em ambientes estruturados. Esta “lacuna de destreza” limita severamente o papel dos robôs nas nossas vidas diárias.
Entre todas as habilidades de manipulação, a apreensão é a mais basic. É a porta de entrada através da qual emergem muitas outras capacidades. Sem uma compreensão confiável, os robôs não conseguem pegar ferramentas, manipular objetos ou realizar tarefas complexas. Portanto, nos concentramos em equipar robôs hábeis com a capacidade de agarrar diversos objetos de forma robusta neste trabalho.
O desafio: por que a preensão hábil permanece ilusória
Embora os humanos possam agarrar quase qualquer objeto com o mínimo de esforço consciente, o caminho para a apreensão robótica hábil está repleto de desafios fundamentais que têm frustrado os pesquisadores há décadas:
Complexidade de controle de alta dimensão. Com mais de 20 graus de liberdade, mãos hábeis apresentam um espaço de controle astronomicamente grande. O movimento de cada dedo afeta toda a preensão, tornando extremamente difícil determinar as trajetórias ideais dos dedos e as distribuições de força em tempo actual. Qual dedo deve se mover? Quanta força deve ser aplicada? Como ajustar em tempo actual? Estas questões aparentemente simples revelam a extraordinária complexidade da apreensão hábil.
Generalização em diversas formas de objetos. Objetos diferentes exigem estratégias de compreensão fundamentalmente diferentes. Por exemplo, objetos esféricos requerem garras envolventes, enquanto objetos alongados precisam de garras de precisão. O sistema deve generalizar esta vasta diversidade de formas, tamanhos e materiais sem programação explícita para cada categoria.
Incerteza de forma sob visão monocular. Para uma implantação prática na vida diária, os robôs devem contar com sistemas de câmera única – a solução de detecção mais acessível e econômica. Além disso, não podemos presumir conhecimento prévio de malhas de objetos, modelos CAD ou informações detalhadas em 3D. Isto cria uma incerteza basic: ambiguidade de profundidade, oclusões parciais e distorções de perspectiva tornam um desafio perceber com precisão a geometria do objeto e planejar apreensão apropriada.
Nossa abordagem: RobustDexGrasp
Para enfrentar esses desafios fundamentais, apresentamos RobustDexGraspuma nova estrutura que aborda cada desafio com soluções direcionadas:
Currículo professor-aluno para controle de alta dimensão. Treinamos nosso sistema por meio de um processo de aprendizagem por reforço em dois estágios: primeiro, uma política de “professor” aprende estratégias de apreensão ideais com informações privilegiadas (formato completo do objeto e sensores táteis) por meio de extensa exploração em simulação. Então, uma política “estudante” aprende com o professor usando apenas a percepção do mundo actual (nuvem de pontos de visão única, posições conjuntas ruidosas) e adapta-se às perturbações do mundo actual.
“Intuição” centrada na mão para generalização de formas. Em vez de capturar características completas da forma 3D, nosso método cria um “mapa psychological” simples que responde apenas a uma pergunta: “Onde estão as superfícies em relação aos meus dedos neste momento?” Esta abordagem intuitiva ignora detalhes irrelevantes (como cores ou padrões decorativos) e concentra-se apenas no que é importante para a compreensão. É a diferença entre memorizar cada detalhe de uma cadeira e apenas saber onde colocar as mãos para levantá-la – uma é eficiente e adaptável, a outra é desnecessariamente complicada.

Percepção multimodal para redução de incerteza. Em vez de confiar apenas na visão, combinamos a visão da câmera com a “consciência corporal” da mão (propriocepção – saber onde estão suas articulações) e a “sensação de toque” reconstruída para cruzar e verificar o que ela está vendo. É como se você apertasse os olhos para algo pouco claro e depois estendesse a mão para tocá-lo para ter certeza. Esta abordagem multissensorial permite ao robô manusear objetos complicados que confundiriam sistemas apenas de visão – agarrar um vidro transparente torna-se possível porque a mão “sabe” que está lá, mesmo quando a câmera se esforça para vê-lo claramente.
Os resultados: do laboratório à realidade

Treinado em apenas 35 objetos simulados, nosso sistema demonstra excelentes capacidades no mundo actual:
Generalização: Alcançou uma taxa de sucesso de 94,6% em um conjunto diversificado de testes de 512 objetos do mundo actual, incluindo itens desafiadores como caixas finas, ferramentas pesadas, garrafas transparentes e peluches.
Robustez: O robô conseguiu manter uma pegada segura mesmo quando uma força externa significativa (equivalente a um peso de 250g) foi aplicada ao objeto agarrado, mostrando uma resiliência muito maior do que os métodos de última geração anteriores.
Adaptação: Quando os objetos eram acidentalmente atingidos ou escorregados, a política ajustava dinamicamente as posições dos dedos e as forças em tempo actual para se recuperarem, demonstrando um nível de controle de circuito fechado anteriormente difícil de alcançar.
Além de pegar coisas: possibilitando uma nova period de manipulação robótica
RobustDexGrasp representa um passo essential para eliminar a lacuna de destreza entre humanos e robôs. Ao permitir que os robôs agarrem praticamente qualquer objeto com a confiabilidade humana, estamos abrindo novas possibilidades para aplicações robóticas além da própria apreensão. Demonstramos como ele pode ser perfeitamente integrado a outros módulos de IA para executar tarefas complexas de manipulação de longo horizonte:
Agarrando-se à desordem: Usando um modelo de segmentação de objetos para identificar o objeto alvo, nosso método permite que a mão escolha um merchandise específico de uma pilha lotada, apesar da interferência de outros objetos.
Apreensão orientada a tarefas: Com um modelo de linguagem de visão como planejador de alto nível e nosso método fornecendo a habilidade de preensão de baixo nível, a mão do robô pode executar preensão para tarefas específicas, como limpar a mesa ou jogar xadrez com um humano.
Interação dinâmica: Usando um módulo de rastreamento de objetos, nosso método pode controlar com sucesso a mão do robô para agarrar objetos que se movem em uma correia transportadora.
Olhando para o futuro, pretendemos superar as limitações atuais, como manusear objetos muito pequenos (o que requer uma mão menor e mais antropomórfica) e realizar interações não preênseis, como empurrar. A jornada rumo à verdadeira destreza robótica está em andamento e estamos entusiasmados por fazer parte dela.
Leia a obra na íntegra

Hui Zhang é doutorando na ETH Zurique.