Em um escritório no Laboratório de Ciência da Computação e Inteligência Synthetic do MIT (CSAIL), uma mão robótica suave enrola cuidadosamente os dedos para entender um pequeno objeto. A parte intrigante não é o design mecânico ou os sensores incorporados – na verdade, a mão não contém nenhum. Em vez disso, todo o sistema depende de uma única câmera que observa os movimentos do robô e usa esses dados visuais para controlá -los.
Essa capacidade vem de um novo sistema que os cientistas da CSAIL se desenvolveram, oferecendo uma perspectiva diferente sobre o controle robótico. Em vez de usar modelos projetados à mão ou matrizes de sensores complexos, ele permite que os robôs aprendam como seus corpos respondem aos comandos de controle, apenas através da visão. A abordagem, chamada Campos Jacobianos Neurais (NJF), oferece aos robôs uma espécie de autoconsciência corporal. Um papel de acesso aberto sobre o trabalho foi publicado em Natureza em 25 de junho.
“Este trabalho aponta para uma mudança de robôs de programação para robôs de ensino”, diz Sizhe Lester Li, estudante de doutorado do MIT em engenharia elétrica e ciência da computação, afiliada da CSAIL e pesquisadora principal sobre o trabalho. “Hoje, muitas tarefas de robótica exigem engenharia e codificação extensa. No futuro, imaginamos mostrar um robô o que fazer e deixá -lo aprender a alcançar o objetivo de forma autônoma”.
A motivação decorre de uma reformulação simples, mas poderosa: a principal barreira para robótica acessível e flexível não é {hardware} – é o controle da capacidade, que pode ser alcançado de várias maneiras. Os robôs tradicionais são construídos para serem ricos e ricos em sensores, facilitando a construção de um gêmeo digital, uma réplica matemática precisa usada para controle. Mas quando um robô é macio, deformável ou de forma irregular, essas suposições desmoronam. Em vez de forçar os robôs a combinar com nossos modelos, a NJF vira o script – dando aos robôs a capacidade de aprender seu próprio modelo interno a partir da observação.
Olhe e aprenda
Esse desacoplamento do design de modelagem e {hardware} pode expandir significativamente o espaço de design para a robótica. Em robôs macios e bio-inspirados, os designers frequentemente incorporam sensores ou reforçam partes da estrutura apenas para viabilizar a modelagem. NJF levanta essa restrição. O sistema não precisa de sensores a bordo ou de design para tornar possível o controle. Os designers são mais livres para explorar morfologias não convencionais e sem restrições sem se preocupar se serão capazes de modelá -las ou controlá -las mais tarde.
“Pense em como você aprende a controlar seus dedos: você se mexe, observa, você se adapta”, diz Li. “É isso que o nosso sistema faz. Ele experimenta ações aleatórias e descobre quais controles movem quais partes do robô”.
O sistema provou ser robusto em vários tipos de robôs. A equipe testou o NJF em uma mão robótica macia pneumática capaz de beliscar e agarrar, uma mão rígida Allegro, um braço robótico impresso em 3D e até uma plataforma rotativa sem sensores incorporados. Em todos os casos, o sistema aprendeu a forma do robô e como ele respondeu aos sinais de controle, apenas da visão e do movimento aleatório.
Os pesquisadores veem potencial muito além do laboratório. Os robôs equipados com NJF poderiam um dia executar tarefas agrícolas com precisão de localização no nível de centímetros, operar em canteiros de obras sem matrizes de sensores elaboradas ou navegar em ambientes dinâmicos onde os métodos tradicionais quebram.
No centro da NJF, há uma rede neural que captura dois aspectos entrelaçados da modalidade de um robô: sua geometria tridimensional e sua sensibilidade às entradas de controle. O sistema se baseia nos campos de radiação neural (NERF), uma técnica que reconstrói cenas 3D de imagens, mapeando coordenadas espaciais para os valores de cor e densidade. A NJF estende essa abordagem aprendendo não apenas a forma do robô, mas também um campo jacobiano, uma função que prevê como qualquer ponto no corpo do robô se transfer em resposta aos comandos dos motores.
Para treinar o modelo, o robô realiza movimentos aleatórios enquanto várias câmeras registram os resultados. Nenhuma supervisão humana ou conhecimento prévio da estrutura do robô é necessário – o sistema simplesmente infere a relação entre sinais de controle e movimento assistindo.
Depois que o treinamento é concluído, o robô precisa apenas de uma única câmera monocular para controle de circuito fechado em tempo actual, rodando a cerca de 12 Hertz. Isso permite que ele se observe continuamente, planeje e age de forma responsável. Essa velocidade torna o NJF mais viável do que muitos simuladores baseados em física para robôs macios, que geralmente são muito intensivos computacionalmente para uso em tempo actual.
Nas simulações iniciais, mesmo os dedos e controles deslizantes simples 2D foram capazes de aprender esse mapeamento usando apenas alguns exemplos. Ao modelar como pontos específicos se deformam ou mudam em resposta à ação, a NJF cria um mapa denso de controlabilidade. Esse modelo interno permite generalizar o movimento no corpo do robô, mesmo quando os dados são barulhentos ou incompletos.
“O que é realmente interessante é que o sistema descobre por conta própria quais motores controlam quais partes do robô”, diz Li. “Isso não está programado – surge naturalmente através do aprendizado, assim como uma pessoa descobrindo os botões em um novo dispositivo”.
O futuro é suave
Por décadas, a robótica favoreceu máquinas rígidas e facilmente modeladas – como os braços industriais encontrados nas fábricas – porque suas propriedades simplificam o controle. Mas o campo está se movendo em direção a robôs macios e inspirados que podem se adaptar ao mundo actual com mais fluidez. O trade-off? Esses robôs são mais difíceis de modelar.
“Hoje, a robótica geralmente se sente fora de alcance por causa de sensores dispendiosos e programação complexa. Nosso objetivo com campos jacobianos neurais é diminuir a barreira, tornando a robótica acessível, adaptável e acessível a mais pessoas. Visão é um sensor resiliente e confiável”, diz o grupo de um autor e autor de MIT Vincent Sitzmann, que lidera a cena. “Ele abre a porta para robôs que podem operar em ambientes confusos e não estruturados, de fazendas a canteiros de obras, sem infraestrutura cara”.
“Imaginative and prescient alone can present the cues wanted for localization and management — eliminating the necessity for GPS, exterior monitoring methods, or advanced onboard sensors. This opens the door to strong, adaptive habits in unstructured environments, from drones navigating indoors or underground with out maps to cell manipulators working in cluttered properties or warehouses, and even legged robots traversing uneven terrain,” says co-author Daniela Rus, professor de engenharia elétrica e ciência da computação e diretor da CSAIL. “Ao aprender com o suggestions visible, esses sistemas desenvolvem modelos internos de seu próprio movimento e dinâmica, permitindo uma operação flexível e auto-supervisionada, onde os métodos tradicionais de localização falhariam”.
Enquanto o treinamento da NJF atualmente exige várias câmeras e deve ser refeito para cada robô, os pesquisadores já estão imaginando uma versão mais acessível. No futuro, os entusiastas poderiam gravar os movimentos aleatórios de um robô com o telefone, assim como você aceitaria um vídeo de aluguel antes de sair e usar essa filmagem para criar um modelo de controle, sem nenhum conhecimento prévio ou equipamento especial necessário.
O sistema ainda não generaliza em diferentes robôs, e não possui detecção de força ou tátil, limitando sua eficácia nas tarefas ricas em contato. Mas a equipe está explorando novas maneiras de abordar essas limitações: melhorar a generalização, lidar com oclusões e estender a capacidade do modelo de raciocinar em horizontes espaciais e temporais mais longos.
“Assim como os seres humanos desenvolvem uma compreensão intuitiva de como seus corpos se movem e respondem aos comandos, a NJF fornece aos robôs esse tipo de autoconsciência incorporada pela visão sozinha”, diz Li. “Esse entendimento é uma base para manipulação e controle flexíveis em ambientes do mundo actual. Nosso trabalho, essencialmente, reflete uma tendência mais ampla na robótica: afastando-se de programar manualmente modelos detalhados para ensinar robôs por meio de observação e interação”.
Este artigo reuniu a visão computacional e o trabalho de aprendizado auto-supervisionado no laboratório Sitzmann e a experiência em robôs suaves do Rus Lab. Li, Sitzmann e RUS co-autorizavam o jornal com os afiliados da CSAIL Annan Zhang Sm ’22, um estudante de doutorado em engenharia elétrica e ciência da computação (EECs); Boyuan Chen, um estudante de doutorado em EECs; Hanna Matusik, pesquisadora de graduação em engenharia mecânica; e Chao Liu, um pós -doutorado no sensível laboratório da cidade do MIT.
A pesquisa foi apoiada pelo Fundo de Pesquisa Solomon Buchsbaum através do Comitê de Apoio à Pesquisa do MIT, de uma Bolsa Presidencial do MIT, da Nationwide Science Basis e do Instituto de Ciência e Tecnologia de Gwangju.