Protótipos de cães robóticos construídos por estudantes de engenharia da Texas A&M College e alimentados por inteligência synthetic demonstram suas capacidades avançadas de navegação. Crédito da foto: Logan Jinks/Texas A&M College Faculty of Engineering.
Por Jennifer Nichols
Conheça o cão robótico com memória de elefante e instintos de socorrista experiente.
Desenvolvido por estudantes de engenharia da Texas A&M College, este cão robótico movido por IA não segue apenas comandos. Projetado para navegar no caos com precisão, o robô pode ajudar a revolucionar as missões de busca e resgate, resposta a desastres e muitas outras operações de emergência.
Sandun Vitharana, estudante de mestrado em tecnologia de engenharia, e Sanjaya Mallikarachchi, estudante interdisciplinar de doutorado em engenharia, lideraram a invenção do cão robótico. Ele pode processar comandos de voz e usar IA e entrada de câmera para planejar caminhos e identificar objetos.
Um roboticista o descreveria como um robô terrestre que usa um sistema de navegação baseado em memória alimentado por um modelo multimodal de linguagem grande (MLLM). Este sistema interpreta entradas visuais e gera decisões de roteamento, integrando captura de imagem ambiental, raciocínio de alto nível e otimização de caminho, combinado com uma arquitetura de controle híbrida que permite planejamento estratégico e ajustes em tempo actual.
Dois cães robóticos com capacidade de navegar através da inteligência synthetic escalam obstáculos de concreto durante uma demonstração de suas capacidades. Crédito da foto: Logan Jinks/Texas A&M College Faculty of Engineering.
A navegação robótica evoluiu de métodos simples baseados em pontos de referência para sistemas computacionais complexos que integram várias fontes sensoriais. No entanto, a navegação em ambientes imprevisíveis e não estruturados, como zonas de desastre ou áreas remotas, continua a ser difícil na exploração autónoma, onde a eficiência e a adaptabilidade são críticas.
Embora cães-robôs e navegação baseada em modelos de linguagem grande existam em diferentes contextos, é um conceito único combinar um MLLM personalizado com um sistema visible baseado em memória, especialmente em uma estrutura modular e de uso geral.
“Alguns sistemas acadêmicos e comerciais integraram modelos de linguagem ou visão à robótica”, disse Vitharana. “No entanto, não vimos uma abordagem que aproveite a navegação de memória baseada em MLLM da maneira estruturada que descrevemos, especialmente com pseudocódigo personalizado orientando a lógica de decisão.”
Mallikarachchi e Vitharana começaram explorando como um MLLM poderia interpretar dados visuais de uma câmera em um sistema robótico. Com o apoio da Nationwide Science Basis, combinaram esta ideia com comandos de voz para construir um sistema pure e intuitivo que mostra como a visão, a memória e a linguagem podem unir-se de forma interativa. O robô pode responder rapidamente para evitar uma colisão e lidar com o planejamento de alto nível usando o MLLM personalizado para analisar sua visão atual e planejar a melhor forma de proceder.
“No futuro, este tipo de estrutura de controle provavelmente se tornará um padrão comum para robôs semelhantes aos humanos”, explicou Mallikarachchi.
O sistema baseado em memória do robô permite recuperar e reutilizar caminhos percorridos anteriormente, tornando a navegação mais eficiente ao reduzir explorações repetidas. Esta capacidade é crítica em missões de busca e salvamento, especialmente em áreas não mapeadas e ambientes onde o GPS é negado.
As aplicações potenciais podem ir muito além da resposta a emergências. Hospitais, armazéns e outras grandes instalações poderiam usar os robôs para melhorar a eficiência. O seu avançado sistema de navegação também pode ajudar pessoas com deficiência visible, explorar campos minados ou realizar reconhecimento em áreas perigosas.
Nuralem Abizov, Amanzhol Bektemessov e Aidos Ibrayev da Universidade Internacional de Engenharia e Tecnologia do Cazaquistão desenvolveram a infraestrutura ROS2 para o projeto. HG Chamika Wijayagrahi, da Universidade de Coventry, no Reino Unido, apoiou o desenho do mapa e a análise dos resultados experimentais.
Vitharana e Mallikarachchi apresentaram o robô e demonstraram suas capacidades na recente 22ª Conferência Internacional sobre Robôs Ubíquos. A pesquisa foi publicada em Uma caminhada inesquecível: navegação visible baseada em memória MLLM.

Universidade A&M do Texas