O mundo conheceu o conceito de robôs que mudam de forma em 1991, com o T-1000 apresentado no filme cult Terminator 2: Dia do Julgamento. Desde então (se não antes), muitos cientistas sonharam em criar um robô com a capacidade de mudar de forma para realizar diversas tarefas.
E, de fato, estamos começando a ver algumas dessas coisas ganhando vida – como esta “bosta magnética” da Universidade Chinesa de Hong Kongpor exemplo, ou este Homem Lego de metallic líquidocapaz de derreter e se reformar para escapar da prisão. Ambos, porém, requerem controles magnéticos externos. Eles não podem se mover de forma independente.
Mas uma equipe de pesquisa do MIT está trabalhando no desenvolvimento de soluções que possam. Eles desenvolveram uma técnica de aprendizado de máquina que treina e controla um robô ‘limo’ reconfigurável que se espreme, dobra e se alonga para interagir com seu ambiente e objetos externos. Nota lateral decepcionada: o robô não é feito de metallic líquido.
Terminator 2: Clipe do Dia do Julgamento – “Hospital Escape” (1991)
“Quando as pessoas pensam em robôs leves, elas tendem a pensar em robôs que são elásticos, mas que retornam à sua forma authentic”, disse Boyuan Chen, do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL) do MIT e coautor do estudo que descreve o trabalho dos pesquisadores. “Nosso robô é como lodo e pode realmente mudar sua morfologia. É impressionante que nosso método tenha funcionado tão bem porque estamos lidando com algo muito novo.”
Os pesquisadores tiveram que descobrir uma maneira de controlar um robô viscoso que não tivesse braços, pernas ou dedos – ou, na verdade, qualquer tipo de esqueleto contra o qual seus músculos possam empurrar e puxar – ou, na verdade, qualquer native definido para qualquer um de seus atuadores musculares. Uma forma tão informe e um sistema tão infinitamente dinâmico… Isso apresenta um cenário de pesadelo: como diabos você deveria programar os movimentos de um robô assim?
É evidente que qualquer tipo de esquema de controlo padrão seria inútil neste cenário, por isso a equipa recorreu à IA, aproveitando a sua imensa capacidade para lidar com dados complexos. E eles desenvolveram um algoritmo de controle que aprende como mover, esticar e moldar o referido robô, às vezes várias vezes, para completar uma tarefa específica.

MIT
O aprendizado por reforço é uma técnica de aprendizado de máquina que treina software program para tomar decisões por tentativa e erro. É ótimo para treinar robôs com partes móveis bem definidas, como uma pinça com “dedos”, que podem ser recompensadas por ações que o aproximem de um objetivo – por exemplo, pegar um ovo. Mas e quanto a um sem forma robô macio que é controlado por campos magnéticos?
“Esse robô poderia ter milhares de pequenos pedaços de músculos para controlar”, disse Chen. “Portanto, é muito difícil aprender da maneira tradicional.”
Um robô slime exige que grandes pedaços sejam movidos de cada vez para obter uma mudança de forma funcional e eficaz; manipular partículas únicas não resultaria na mudança substancial necessária. Assim, os pesquisadores usaram a aprendizagem por reforço de uma forma não tradicional.

Huang et al.
Na aprendizagem por reforço, o conjunto de todas as ações ou escolhas válidas disponíveis para um agente enquanto ele interage com um ambiente é chamado de “espaço de ação”. Aqui, o espaço de ação do robô foi tratado como uma imagem composta de pixels. Seu modelo usou imagens do ambiente do robô para gerar um espaço de ação 2D coberto por pontos sobrepostos por uma grade.
Da mesma forma que os pixels próximos de uma imagem estão relacionados, o algoritmo dos pesquisadores entendeu que os pontos de ação próximos tinham correlações mais fortes. Assim, os pontos de ação ao redor do ‘braço’ do robô se moverão juntos quando ele mudar de forma; os pontos de ação na “perna” também se moverão juntos, mas de forma diferente do movimento do braço.
Os pesquisadores também desenvolveram um algoritmo com “aprendizado de políticas grosseiras a finas”. Primeiro, o algoritmo é treinado usando uma política grosseira de baixa resolução – ou seja, movendo grandes pedaços – para explorar o espaço de ação e identificar padrões de ação significativos. Em seguida, uma política fina e de alta resolução se aprofunda para otimizar as ações do robô e melhorar sua capacidade de executar tarefas complexas.

MIT
“Grosso a fino significa que quando você realiza uma ação aleatória, essa ação aleatória provavelmente fará a diferença”, disse Vincent Sitzmann, coautor do estudo que também é do CSAIL. “A mudança no resultado é provavelmente muito significativa porque você controla grosseiramente vários músculos ao mesmo tempo.”
O próximo passo foi testar sua abordagem. Eles criaram um ambiente de simulação chamado DittoGym, que apresenta oito tarefas que avaliam a capacidade de um robô reconfigurável de mudar de forma. Por exemplo, fazer com que o robô mix uma letra ou símbolo e fazê-lo crescer, cavar, chutar, pegar e correr.
Esquema de controle do robô slime do MIT: exemplos
“Nossa seleção de tarefas no DittoGym segue princípios genéricos de design de referência de aprendizagem por reforço e as necessidades específicas de robôs reconfiguráveis”, disse Suning Huang, do Departamento de Automação da Universidade de Tsinghua, China, pesquisador visitante do MIT e coautor do estudo.
“Cada tarefa é projetada para representar certas propriedades que consideramos importantes, como a capacidade de navegar através de explorações de longo horizonte, a capacidade de analisar o ambiente e interagir com objetos externos”, continuou Huang. aos usuários uma compreensão abrangente da flexibilidade dos robôs reconfiguráveis e da eficácia do nosso esquema de aprendizagem por reforço.”
IdemGym
Os investigadores descobriram que, em termos de eficiência, o seu algoritmo grosseiro para fino superou as alternativas (por exemplo, políticas apenas grosseiras ou multas desde o início) de forma consistente em todas as tarefas.
Levará algum tempo até que vejamos robôs que mudam de forma fora do laboratório, mas este trabalho é um passo na direção certa. Os pesquisadores esperam que isso encourage outros a desenvolver seu próprio robô macio reconfigurável que, um dia, poderá atravessar o corpo humano ou ser incorporado a um dispositivo vestível.
O estudo foi publicado no web site pré-impresso arXiv.
Fonte: MIT