A frase “a prática leva à perfeição” geralmente é reservada para humanos, mas também é uma ótima máxima para robôs recém-implantados em ambientes desconhecidos.
Think about um robô chegando em um depósito. Ele vem embalado com as habilidades para as quais foi treinado, como colocar um objeto, e agora precisa pegar itens de uma prateleira com a qual não está familiarizado. No início, a máquina luta com isso, pois precisa se familiarizar com seu novo ambiente. Para melhorar, o robô precisará entender quais habilidades dentro de uma tarefa geral ele precisa melhorar, então especializar (ou parametrizar) essa ação.
Um humano no native poderia programar o robô para otimizar seu desempenho, mas pesquisadores do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL) do MIT e do Instituto de IA desenvolveram uma alternativa mais eficaz. Apresentado na Conferência de Robótica: Ciência e Sistemas no mês passado, seu algoritmo “Estimate, Extrapolate, and Situate” (EES) permite que essas máquinas pratiquem por conta própria, potencialmente ajudando-as a melhorar em tarefas úteis em fábricas, lares e hospitais.
Avaliando a situação
Para ajudar os robôs a melhorar em atividades como varrer o chão, o EES trabalha com um sistema de visão que localiza e rastreia os arredores da máquina. Então, o algoritmo estima quão confiável o robô executa uma ação (como varrer) e se valeria a pena praticar mais. O EES prevê quão bem o robô poderia executar a tarefa geral se ele refinasse essa habilidade específica e, finalmente, ele pratica. O sistema de visão subsequentemente verifica se essa habilidade foi feita corretamente após cada tentativa.
O EES pode ser útil em lugares como um hospital, fábrica, casa ou cafeteria. Por exemplo, se você quisesse que um robô limpasse sua sala de estar, ele precisaria de ajuda para praticar habilidades como varrer. De acordo com Nishanth Kumar SM ’24 e seus colegas, no entanto, o EES poderia ajudar esse robô a melhorar sem intervenção humana, usando apenas alguns testes práticos.
“Ao iniciar este projeto, nos perguntamos se essa especialização seria possível em uma quantidade razoável de amostras em um robô actual”, diz Kumar, coautor principal de um papel descrevendo o trabalho, aluno de doutorado em engenharia elétrica e ciência da computação, e um afiliado do CSAIL. “Agora, temos um algoritmo que permite que robôs melhorem significativamente em habilidades específicas em um período de tempo razoável com dezenas ou centenas de pontos de dados, uma atualização dos milhares ou milhões de amostras que um algoritmo de aprendizado de reforço padrão requer.”
Veja a varredura Spot
O talento do EES para aprendizado eficiente ficou evidente quando implementado no quadrupede Spot da Boston Dynamics durante testes de pesquisa no The AI Institute. O robô, que tem um braço preso às costas, completou tarefas de manipulação após praticar por algumas horas. Em uma demonstração, o robô aprendeu a colocar com segurança uma bola e um anel em uma mesa inclinada em aproximadamente três horas. Em outra, o algoritmo guiou a máquina para melhorar a varredura de brinquedos em uma lixeira em cerca de duas horas. Ambos os resultados parecem ser uma atualização de estruturas anteriores, que provavelmente levariam mais de 10 horas por tarefa.
“Nosso objetivo period que o robô coletasse sua própria experiência para que ele pudesse escolher melhor quais estratégias funcionariam bem em sua implantação”, diz o coautor principal Tom Silver SM ’20, PhD ’24, um ex-aluno de engenharia elétrica e ciência da computação (EECS) e afiliado do CSAIL que agora é professor assistente na Universidade de Princeton. “Ao focar no que o robô sabe, buscamos responder a uma pergunta-chave: na biblioteca de habilidades que o robô tem, qual seria a mais útil para praticar agora?”
O EES poderia eventualmente ajudar a simplificar a prática autônoma para robôs em novos ambientes de implantação, mas, por enquanto, ele vem com algumas limitações. Para começar, eles usaram mesas que eram baixas em relação ao chão, o que tornou mais fácil para o robô ver seus objetos. Kumar e Silver também imprimiram em 3D uma alça acoplável que tornou a escova mais fácil para Spot agarrar. O robô não detectou alguns itens e identificou objetos nos lugares errados, então os pesquisadores contaram esses erros como falhas.
Dando lição de casa aos robôs
Os pesquisadores observam que as velocidades de prática dos experimentos físicos poderiam ser aceleradas ainda mais com a ajuda de um simulador. Em vez de trabalhar fisicamente em cada habilidade de forma autônoma, o robô poderia eventualmente combinar a prática actual e digital. Eles esperam tornar seu sistema mais rápido com menos latência, projetando o EES para superar os atrasos de imagem que os pesquisadores experimentaram. No futuro, eles podem investigar um algoritmo que raciocine sobre sequências de tentativas de prática em vez de planejar quais habilidades refinar.
“Permitir que robôs aprendam por conta própria é incrivelmente útil e extremamente desafiador”, diz Danfei Xu, professor assistente na Escola de Computação Interativa da Georgia Tech e cientista pesquisador da NVIDIA AI, que não estava envolvido neste trabalho. “No futuro, robôs domésticos serão vendidos para todos os tipos de lares e espera-se que executem uma ampla gama de tarefas. Não podemos programar tudo o que eles precisam saber de antemão, então é essencial que eles possam aprender no trabalho. No entanto, deixar robôs soltos para explorar e aprender sem orientação pode ser muito lento e pode levar a consequências não intencionais. A pesquisa de Silver e seus colegas apresenta um algoritmo que permite que robôs pratiquem suas habilidades de forma autônoma e estruturada. Este é um grande passo para criar robôs domésticos que podem evoluir e melhorar continuamente por conta própria.”
Os coautores de Silver e Kumar são os pesquisadores do The AI Institute Stephen Proulx e Jennifer Barry, além de quatro membros do CSAIL: o aluno de doutorado e pesquisador visitante da Northeastern College Linfeng Zhao, o aluno de doutorado do MIT EECS Willie McClinton e os professores do MIT EECS Leslie Pack Kaelbling e Tomás Lozano-Pérez. O trabalho deles foi apoiado, em parte, pelo The AI Institute, pela US Nationwide Science Basis, pelo US Air Drive Workplace of Scientific Analysis, pelo US Workplace of Naval Analysis, pelo US Military Analysis Workplace e pelo MIT Quest for Intelligence, com recursos de computação de alto desempenho do MIT SuperCloud e do Lincoln Laboratory Supercomputing Middle.