Na UC Berkeley, pesquisadores em A IA robótica de Sergey Levine e Laboratório de Aprendizagem Olhou para uma mesa onde uma torre de 39 blocos de Jenga estava perfeitamente empilhada. Depois, um robô branco e preto, seu único membro dobrou como uma girafa curvada, em direção à torre, brandindo um chicote de couro preto. Através do que poderia ter parecido a um espectador informal como um milagre da física, o chicote atingiu exatamente o native certo para enviar um único bloco voando da pilha, enquanto o resto da torre permaneceu estruturalmente sólido.
Essa tarefa, conhecida como “Jenga Chicoteing”, é um interest perseguido por pessoas com destreza e reflexos para fazê -lo. Agora, ele foi dominado por robôs, graças a um romance, método de treinamento movido a IA. Ao aprender com demonstrações e suggestions humanos, bem como suas próprias tentativas do mundo actual, esse protocolo de treinamento ensina robôs a executar tarefas complicadas, como o Jenga, chicoteando com uma taxa de sucesso de 100%. Além disso, os robôs são ensinados a uma velocidade impressionante, permitindo que eles aprendam dentro de uma a duas horas como montar perfeitamente uma placa -mãe de computador, construir uma prateleira e muito mais.
Alimentado pela IA, o campo de aprendizado do robô procurou quebrar o desafio de como ensinar atividades de máquinas que são imprevisíveis ou complicadas, em oposição a uma única ação, como pegar repetidamente um objeto de um native específico em uma correia transportadora. Para resolver esse dilema, o Labor de Levine se concentrou no que é chamado de “aprendizado de reforço”.
O pesquisador de pós -doutorado Jianlan Luo explicou que, no aprendizado de reforço, um robô tenta uma tarefa no mundo actual e, usando suggestions das câmeras, aprende com seus erros para eventualmente dominar essa habilidade. Quando a equipe anunciou pela primeira vez um novo conjunto de software program usando essa abordagem no início de 2024, Luo disse que estava animado para que outros pudessem replicar rapidamente seu sucesso usando o software program de código aberto por conta própria.
Neste outono, a equipe de pesquisa de Levine, Luo, Charles Xu, Zheyuan Hu e Jeffrey Wu divulgou um relatório técnico sobre seu sistema mais recente, aquele que acalmou o chicote de Jenga. Esta versão nova e melhorada adicionada na intervenção humana. Com um mouse especial que controla o robô, um humano pode corrigir o curso do robô, e essas correções podem ser incorporadas ao proverbial Financial institution de memória do robô. Usando um método de IA chamado Aprendizagem de Reforço, o robô analisa a soma de todas as suas tentativas – assistida e sem assistência, bem -sucedida e malsucedida – para melhor executar sua tarefa. Luo disse que um humano precisava intervir cada vez menos à medida que o robô aprendeu com a experiência. “Eu precisava cuidar do robô para talvez os primeiros 30% ou algo assim, e depois gradualmente eu poderia realmente prestar menos atenção”, disse ele.
Registre -se hoje para economizar 40% nos passes da conferência!
O laboratório colocou seu sistema robótico através de uma manopla de tarefas complicadas além do chicote de Jenga. O robô virou um ovo em uma panela; passou por um objeto de um braço para outro; e montou uma placa -mãe, painel de carros e correia dentada. Os pesquisadores selecionaram esses desafios porque foram variados e, nas palavras de Luo, representaram “todo tipo de incerteza ao executar tarefas robóticas no complexo mundo actual”.
A tarefa da correia dentada se destacou em termos de dificuldade. Toda vez que o robô interagia com a correia dentada – think about tentar manipular uma corrente de colar em dois pinos – precisava antecipar e reagir a essa mudança.
O chicote de Jenga constitui um tipo diferente de desafio. Envolve a física difícil de modelar, por isso é menos eficiente treinar um robô usando simulações sozinhas; A experiência do mundo actual foi crítica.
Os pesquisadores também testaram a adaptabilidade dos robôs encenando contratempos. Eles forçariam uma garra a abrir para que ele soltasse um objeto ou movesse uma placa -mãe enquanto o robô tentava instalar um microchip, treinando -o para reagir a uma situação de mudança que poderia encontrar fora de um ambiente de laboratório.
No closing do treinamento, o robô poderia executar essas tarefas corretamente 100% do tempo. Os pesquisadores compararam seus resultados a um método comum de “copiar meu comportamento”, conhecido como clonagem comportamental que foi treinada na mesma quantidade de dados de demonstração; Seu novo sistema tornou os robôs mais rápido e preciso. Essas métricas são cruciais, disse Luo, porque a barra de competência de robô é muito alta. Consumidores e industriais regulares não querem comprar um robô inconsistente. Luo enfatizou que, em explicit, processos de fabricação “feitos sob encomenda”, como os usados frequentemente para eletrônicos, automóveis e peças aeroespaciais, poderiam se beneficiar de robôs que podem aprender de maneira confiável e adaptável uma variedade de tarefas.
A primeira vez que o robô conquistou o desafio de chicote de Jenga, “isso realmente me chocou”, disse Luo. “A tarefa Jenga é muito difícil para a maioria dos humanos. Eu tentei com um chicote na minha mão; Eu tive uma taxa de sucesso de 0%. ” E mesmo quando empilhados contra um idiota Human Jenga Whipper, acrescentou, o robô provavelmente superará o humano porque não tem músculos que eventualmente se cansarão.
O novo sistema de aprendizado do Levine Lab faz parte de uma tendência mais ampla na inovação de robótica. Nos últimos dois anos, o campo maior se moveu aos trancos e barrancos, impulsionado pelo investimento da indústria e pela IA, que fornece às engenheiros ferramentas turbo de dados para analisar dados de desempenho ou entrada de imagem que um robô pode estar observando. Professores e pesquisadores de Berkeley fazem parte desse aumento na inovação; Várias empresas de robótica de ponta que receberam financiamento substancial de risco ou até se foram públicas têm laços no campus.
Levine co-fundou a Inteligência Física da Companhia de Robótica (PI), atualmente avaliado em US $ 2 bilhões por seu progresso na criação de software program que pode funcionar para uma variedade de robôs. Em sua última rodada de financiamento, Pi levantou US $ 400 milhões de investidoresincluindo Jeff Bezos e Openai. Em 2018, o professor Ken Goldberg e outros pesquisadores de Berkeley formaram Robótica Ambique levantou cerca de US $ 67 milhões; A empresa cria robôs treinados por meio de simulações de IA que agarram e classificam parcelas em diferentes contêineres, tornando-os indispensáveis para empresas de comércio eletrônico.
Pieter Abbeel, diretor do Berkeley Synthetic Intelligence Analysis Lab, co-criou a startup de robótica da AI Covariantecujos modelos – e confiança cerebral – eram Alistado pela Amazon no ano passado. E Homayoon Kazerooni, professor de engenharia mecânica, fundou a empresa de capital aberto Ekso Bionics, que torna os “exoesqueletos” robóticos para uso por pessoas com mobilidade limitada.
Quanto à pesquisa de Luo, ele está animado ao ver onde sua equipe e outros pesquisadores podem pressioná -la. Uma próxima etapa, disse ele, seria pré-treinar o sistema com recursos básicos de manipulação de objetos, eliminando a necessidade de aprender aqueles do zero e, em vez disso, progredir diretamente para adquirir habilidades mais complexas. O laboratório também optou por fazer sua pesquisa de código aberto para que outros pesquisadores pudessem usar e desenvolvê -lo.
“Um objetivo essencial deste projeto é tornar a tecnologia tão acessível e fácil de usar quanto um iPhone”, disse Luo. “Acredito firmemente que quanto mais pessoas podem usá -lo, maior o impacto que podemos causar.”
Nota do editor: Este artigo foi republicado de UC Berkeley Information.