Um robô doméstico treinado para executar tarefas domésticas em uma fábrica pode deixar de limpar efetivamente a pia ou retirar o lixo quando implantado na cozinha de um usuário, pois esse novo ambiente difere do seu espaço de treinamento.
Para evitar isso, os engenheiros geralmente tentam corresponder ao ambiente de treinamento simulado o mais próximo possível do mundo actual, onde o agente será implantado.
No entanto, pesquisadores do MIT e de outros lugares descobriram que, apesar dessa sabedoria convencional, às vezes o treinamento em um ambiente completamente diferente produz um agente de inteligência synthetic de melhor desempenho.
Seus resultados indicam que, em algumas situações, o treinamento de um agente de IA simulado em um mundo com menos incerteza, ou “ruído”, permitiu que ele tenha um desempenho melhor do que um agente de IA concorrente treinado no mesmo mundo barulhento que eles costumavam testar os dois agentes.
Os pesquisadores chamam esse fenômeno inesperado de efeito de treinamento interno.
“Se aprendermos a jogar tênis em um ambiente interno, onde não há barulho, poderemos poder dominar mais facilmente tiros diferentes. Então, se mudarmos para um ambiente mais barulhento, como uma quadra de tênis ventosa, poderíamos ter uma maior probabilidade de jogar tênis do que se começarmos a aprender no ambiente ventoso ”, explica Serena Bono, uma assistente de pesquisa no MIT Media Lab e Autor principal de um artigo sobre o efeito de treinamento interno.
Os pesquisadores estudaram esse fenômeno treinando agentes de IA para jogar jogos Atari, que eles modificaram adicionando alguma imprevisibilidade. Eles ficaram surpresos ao descobrir que o efeito de treinamento interno ocorreu de forma consistente nos jogos Atari e variações de jogos.
Eles esperam que esses resultados alimentem pesquisas adicionais para desenvolver melhores métodos de treinamento para agentes de IA.
“Este é um eixo totalmente novo para pensar. Em vez de tentar corresponder aos ambientes de treinamento e teste, podemos construir ambientes simulados, onde um agente de IA aprende ainda melhor ”, acrescenta o co-autor Spandan Madan, um estudante de graduação da Universidade de Harvard.
Bono e Madan se juntam ao jornal por Ishaan Grover, um estudante de pós -graduação do MIT; Mao Yasueda, estudante de graduação da Universidade de Yale; Cynthia Breazeal, professora de artes e ciências da mídia e líder do grupo de robótica pessoal no MIT Media Lab; Hanspeter Pfister, professor de ciência da computação em Harvard; e Gabriel Kreiman, professor da Harvard Medical Faculty. A pesquisa será apresentada na Associação para o Avanço da Conferência de Inteligência Synthetic.
Problemas de treinamento
Os pesquisadores decidiram explorar por que os agentes de aprendizado de reforço tendem a ter um desempenho tão sombrio quando testados em ambientes que diferem de seu espaço de treinamento.
A aprendizagem de reforço é um método de tentativa e erro no qual o agente explora um espaço de treinamento e aprende a tomar ações que maximizam sua recompensa.
A equipe desenvolveu uma técnica para adicionar explicitamente uma certa quantidade de ruído a um elemento do problema de aprendizado de reforço chamado função de transição. A função de transição outline a probabilidade de que um agente se moverá de um estado para outro, com base na ação que escolhe.
Se o agente estiver jogando Pac-Man, uma função de transição poderá definir a probabilidade de que os fantasmas no quadro de jogos subam, para baixo, para a esquerda ou à direita. No aprendizado de reforço padrão, a IA seria treinada e testada usando a mesma função de transição.
Os pesquisadores adicionaram ruído à função de transição com essa abordagem convencional e, como esperado, prejudicou o desempenho do Pac-Man do agente.
Mas quando os pesquisadores treinaram o agente com um jogo de Pac-Man sem ruído, testou-o em um ambiente em que injetaram ruído na função de transição, ele teve um desempenho melhor do que um agente treinado no jogo barulhento.
“A regra prática é que você deve tentar capturar a função de transição da condição de implantação, bem como puder durante o treinamento para obter o máximo de retorno. Nós realmente testamos essa visão da morte, porque não podíamos acreditar nela sozinhos ”, diz Madan.
Injetar quantidades variadas de ruído na função de transição permitem que os pesquisadores testem muitos ambientes, mas não criaram jogos realistas. Quanto mais barulho eles injetavam no Pac-Man, mais prováveis os fantasmas se teletransportam aleatoriamente para diferentes quadrados.
Para ver se o efeito de treinamento interno ocorreu em jogos normais do Pac-Man, eles ajustaram as probabilidades subjacentes para que os fantasmas se moviam normalmente, mas tinham maior probabilidade de subir e descer, em vez de para a esquerda e direita. Os agentes de IA treinados em ambientes livres de ruído ainda tiveram um desempenho melhor nesses jogos realistas.
“Não foi apenas devido à maneira como adicionamos ruído para criar ambientes advert hoc. Isso parece ser uma propriedade do problema de aprendizado de reforço. E isso foi ainda mais surpreendente de ver ”, diz Bono.
Explicações de exploração
Quando os pesquisadores se aprofundaram em busca de uma explicação, viram algumas correlações na maneira como os agentes da IA exploram o espaço de treinamento.
Quando ambos os agentes da IA exploram principalmente as mesmas áreas, o agente treinado no ambiente que não é do NOISY tem um desempenho melhor, talvez porque seja mais fácil para o agente aprender as regras do jogo sem a interferência do ruído.
Se seus padrões de exploração forem diferentes, o agente treinado no ambiente barulhento tende a ter um desempenho melhor. Isso pode ocorrer porque o agente precisa entender os padrões que não pode aprender no ambiente sem ruído.
“Se eu apenas aprender a jogar tênis com meu forehand no ambiente não sem nois, mas depois no barulhento que tenho que brincar com meu backhand, não vou jogar tão bem no ambiente que não é uma escala”, explica Bono “, explica Bono”, Bono .
No futuro, os pesquisadores esperam explorar como o efeito de treinamento interno pode ocorrer em ambientes de aprendizado de reforço mais complexos ou em outras técnicas como visão computacional e processamento de linguagem pure. Eles também desejam criar ambientes de treinamento projetados para alavancar o efeito de treinamento interno, o que pode ajudar os agentes da IA a ter um melhor desempenho em ambientes incertos.