Think about que um robô está ajudando você a limpar a louça. Você pede para pegar uma tigela de sabão para fora da pia, mas sua garra sente falta levemente a marca.
Usando uma nova estrutura desenvolvida pelos pesquisadores do MIT e da NVIDIA, você pode corrigir o comportamento desse robô com interações simples. O método permitiria que você apontasse para a tigela ou rastreasse uma trajetória em uma tela ou simplesmente dê um empurrão no braço do robô na direção certa.
Diferentemente de outros métodos para corrigir o comportamento do robô, essa técnica não exige que os usuários coletem novos dados e treinem o modelo de aprendizado de máquina que alimenta o cérebro do robô. Ele permite que um robô use suggestions humano intuitivo e em tempo actual para escolher uma sequência de ação viável que se aproxima o mais próximo possível de satisfazer a intenção do usuário.
Quando os pesquisadores testaram sua estrutura, sua taxa de sucesso foi 21 % maior que um método alternativo que não aproveitou as intervenções humanas.
A longo prazo, essa estrutura pode permitir que um usuário oriesse mais facilmente um robô treinado pela fábrica para executar uma ampla variedade de tarefas domésticas, embora o robô nunca tenha visto sua casa ou os objetos nela.
“Não podemos esperar que os leigos executem a coleta de dados e ajustem um modelo de rede neural. O consumidor espera que o robô trabalhe imediatamente e, se não o fizer, desejariam que um mecanismo intuitivo o personalize. Esse é o desafio que abordamos neste trabalho ”, diz Felix Yanwei Wang, estudante de pós -graduação de engenharia elétrica e ciência da computação (EECS) e principal autora de A artigo sobre este método.
Seus co-autores incluem Lirui Wang PhD ’24 e Yilun du PhD ’24; A autora sênior Julie Shah, professora do MIT de aeronáutica e astronautica e diretora do grupo de robótica interativo no Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL); assim como Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D’arpino PhD ’19 e Dieter Fox de Nvidia. A pesquisa será apresentada na Conferência Internacional sobre Robôs e Automação.
Mitigando desalinhamento
Recentemente, os pesquisadores começaram a usar modelos generativos de IA pré-treinados para aprender uma “política” ou um conjunto de regras, que um robô segue para concluir uma ação. Modelos generativos podem resolver várias tarefas complexas.
Durante o treinamento, o modelo vê apenas movimentos viáveis do robô, por isso aprende a gerar trajetórias válidas para o robô seguir.
Embora essas trajetórias sejam válidas, isso não significa que elas sempre se alinhem com a intenção de um usuário no mundo actual. O robô pode ter sido treinado para pegar caixas de uma prateleira sem derrubá -las, mas poderia deixar de chegar à caixa em cima da estante de alguém se a prateleira for orientada de maneira diferente daquelas que viam no treinamento.
Para superar essas falhas, os engenheiros normalmente coletam dados que demonstram a nova tarefa e re-trepam o modelo generativo, um processo caro e demorado que requer experiência em aprendizado de máquina.
Em vez disso, os pesquisadores do MIT queriam permitir que os usuários direcionassem o comportamento do robô durante a implantação quando cometer um erro.
Mas se um humano interage com o robô para corrigir seu comportamento, isso pode inadvertidamente causar o modelo generativo a escolher uma ação inválida. Pode chegar à caixa que o usuário deseja, mas bata os livros da prateleira no processo.
“Queremos permitir que o usuário interaja com o robô sem introduzir esses tipos de erros, por isso obtemos um comportamento muito mais alinhado com a intenção do usuário durante a implantação, mas isso também é válido e viável”, diz Wang.
Sua estrutura realiza isso, fornecendo ao usuário três maneiras intuitivas de corrigir o comportamento do robô, cada um dos quais oferece certas vantagens.
Primeiro, o usuário pode apontar para o objeto que deseja que o robô manipule em uma interface que mostra a visualização da câmera. Segundo, eles podem rastrear uma trajetória nessa interface, permitindo que eles especifiquem como desejam que o robô chegue ao objeto. Terceiro, eles podem mover fisicamente o braço do robô na direção que eles querem que ele siga.
“Quando você está mapeando uma imagem 2D do ambiente para ações em um espaço 3D, algumas informações são perdidas. Nudar fisicamente o robô é a maneira mais direta de especificar a intenção do usuário sem perder nenhuma das informações ”, diz Wang.
Amostragem para sucesso
Para garantir que essas interações não levem o robô a escolher uma ação inválida, como colidir com outros objetos, os pesquisadores usam um procedimento de amostragem específico. Essa técnica permite que o modelo escolha uma ação do conjunto de ações válidas que mais se alinham à meta do usuário.
“Em vez de apenas impor a vontade do usuário, damos ao robô uma idéia do que o usuário pretende, mas que o procedimento de amostragem oscilasse em torno de seu próprio conjunto de comportamentos aprendidos”, explica Wang.
Esse método de amostragem permitiu à estrutura dos pesquisadores superar os outros métodos com os quais compararam durante simulações e experimentos com um braço de robô actual em uma cozinha de brinquedos.
Embora o método deles nem sempre conclua a tarefa imediatamente, ele oferece aos usuários a vantagem de poder corrigir imediatamente o robô se o virem fazendo algo errado, em vez de esperar que ele termine e, em seguida, dando novas instruções.
Além disso, depois que um usuário cutuca o robô algumas vezes até que ele pegue a tigela correta, ele pode registrar essa ação corretiva e incorporá -la ao seu comportamento através do treinamento futuro. Então, no dia seguinte, o robô poderia pegar a tigela correta sem precisar de um empurrão.
“Mas a chave para essa melhoria contínua é ter uma maneira de o usuário interagir com o robô, que é o que mostramos aqui”, diz Wang.
No futuro, os pesquisadores desejam aumentar a velocidade do procedimento de amostragem, mantendo ou melhorando seu desempenho. Eles também querem experimentar a geração de políticas de robôs em novos ambientes.