O sistema baseado em inteligência synthetic cria e alinha gradativamente submapas menores da cena, que ele une para reconstruir um mapa 3D completo, como um cubículo de escritório, enquanto estima a posição do robô em tempo actual. Imagem cortesia dos pesquisadores.
Por Adam Zewe
Um robô que procura trabalhadores presos em um poço de mina parcialmente desmoronado deve gerar rapidamente um mapa da cena e identificar sua localização dentro dessa cena enquanto navega pelo terreno traiçoeiro.
Os pesquisadores começaram recentemente a construir modelos poderosos de aprendizado de máquina para realizar essa tarefa complexa usando apenas imagens das câmeras a bordo do robô, mas mesmo os melhores modelos só conseguem processar algumas imagens por vez. Num desastre do mundo actual, onde cada segundo conta, um robô de busca e salvamento precisaria atravessar rapidamente grandes áreas e processar milhares de imagens para completar a sua missão.
Para superar esse problema, os pesquisadores do MIT basearam-se em ideias de modelos recentes de visão de inteligência synthetic e de visão computacional clássica para desenvolver um novo sistema que pode processar um número arbitrário de imagens. Seu sistema gera com precisão mapas 3D de cenas complicadas, como um corredor lotado de um escritório, em questão de segundos.
O sistema baseado em IA cria e alinha gradativamente submapas menores da cena, que ele une para reconstruir um mapa 3D completo enquanto estima a posição do robô em tempo actual.
Ao contrário de muitas outras abordagens, sua técnica não requer câmeras calibradas ou um especialista para ajustar uma implementação complexa de sistema. A natureza mais simples da sua abordagem, juntamente com a velocidade e a qualidade das reconstruções 3D, tornaria mais fácil a expansão para aplicações do mundo actual.
Além de ajudar os robôs de busca e resgate a navegar, esse método poderia ser usado para criar aplicações de realidade estendida para dispositivos vestíveis, como fones de ouvido VR, ou permitir que robôs industriais encontrem e movam mercadorias rapidamente dentro de um armazém.
“Para que os robôs realizem tarefas cada vez mais complexas, eles precisam de representações cartográficas muito mais complexas do mundo ao seu redor. Mas, ao mesmo tempo, não queremos dificultar a implementação desses mapas na prática. Mostramos que é possível gerar uma reconstrução 3D precisa em questão de segundos com uma ferramenta que funciona imediatamente”, diz Dominic Maggio, estudante de pós-graduação do MIT e autor principal de um estudo. artigo sobre este método.
Maggio é acompanhado no artigo pelo pós-doutorado Hyungtae Lim e pelo autor sênior Luca Carlone, professor associado do Departamento de Aeronáutica e Astronáutica do MIT (AeroAstro), investigador principal do Laboratório de Sistemas de Informação e Decisão (LIDS) e diretor do Laboratório MIT SPARK. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.
Mapeando uma solução
Durante anos, os pesquisadores têm lutado com um elemento essencial da navegação robótica chamado localização e mapeamento simultâneos (SLAM). No SLAM, um robô recria um mapa de seu ambiente enquanto se orienta no espaço.
Os métodos tradicionais de otimização para esta tarefa tendem a falhar em cenas desafiadoras ou exigem que as câmeras integradas do robô sejam calibradas previamente. Para evitar essas armadilhas, os pesquisadores treinam modelos de aprendizado de máquina para aprender essa tarefa a partir dos dados.
Embora sejam mais simples de implementar, mesmo os melhores modelos só podem processar cerca de 60 imagens de câmeras por vez, tornando-os inviáveis para aplicações onde um robô precisa se mover rapidamente por um ambiente variado enquanto processa milhares de imagens.
Para resolver este problema, os pesquisadores do MIT desenvolveram um sistema que gera submapas menores da cena em vez do mapa inteiro. Seu método “cola” esses submapas em uma reconstrução 3D geral. O modelo ainda processa apenas algumas imagens por vez, mas o sistema pode recriar cenas maiores com muito mais rapidez, unindo submapas menores.
“Esta parecia uma solução muito simples, mas quando tentei pela primeira vez, fiquei surpreso por não ter funcionado tão bem”, diz Maggio.
Em busca de uma explicação, ele investigou artigos de pesquisa sobre visão computacional das décadas de 1980 e 1990. Por meio dessa análise, Maggio percebeu que erros na forma como os modelos de aprendizado de máquina processam imagens tornavam o alinhamento de submapas um problema mais complexo.
Os métodos tradicionais alinham submapas aplicando rotações e translações até que se alinhem. Mas estes novos modelos podem introduzir alguma ambiguidade nos submapas, o que os torna mais difíceis de alinhar. Por exemplo, um submapa 3D de um lado de uma sala pode ter paredes ligeiramente dobradas ou esticadas. Simplesmente girar e transladar esses submapas deformados para alinhá-los não funciona.
“Precisamos ter certeza de que todos os submapas estão deformados de forma consistente para que possamos alinhá-los bem uns com os outros”, explica Carlone.
Uma abordagem mais flexível
Tomando emprestadas ideias da visão computacional clássica, os pesquisadores desenvolveram uma técnica matemática mais flexível que pode representar todas as deformações nesses submapas. Ao aplicar transformações matemáticas a cada submapa, este método mais flexível pode alinhá-los de uma forma que resolva a ambiguidade.
Com base nas imagens de entrada, o sistema gera uma reconstrução 3D da cena e estimativas das localizações das câmeras, que o robô usaria para se localizar no espaço.
“Depois que Dominic teve a intuição de unir esses dois mundos – abordagens baseadas em aprendizagem e métodos tradicionais de otimização – a implementação foi bastante simples”, diz Carlone. “Criar algo tão eficaz e simples tem potencial para muitas aplicações.
Seu sistema funcionou mais rápido e com menos erros de reconstrução do que outros métodos, sem exigir câmeras especiais ou ferramentas adicionais para processar dados. Os pesquisadores geraram reconstruções 3D quase em tempo actual de cenas complexas como o inside da capela do MIT usando apenas vídeos curtos capturados em um telefone celular.
O erro médio nestas reconstruções 3D foi inferior a 5 centímetros.
No futuro, os pesquisadores querem tornar seu método mais confiável para cenas especialmente complicadas e trabalhar para implementá-lo em robôs reais em ambientes desafiadores.
“Saber sobre a geometria tradicional compensa. Se você entender profundamente o que está acontecendo no modelo, poderá obter resultados muito melhores e tornar as coisas muito mais escaláveis”, diz Carlone.
Este trabalho é apoiado, em parte, pela Fundação Nacional de Ciência dos EUA, pelo Escritório de Pesquisa Naval dos EUA e pela Fundação Nacional de Pesquisa da Coreia. Carlone, atualmente em licença sabática como Amazon Scholar, concluiu este trabalho antes de ingressar na Amazon.

Notícias do MIT