A aprendizagem guiada permite que redes neurais “intreináveis” realizem seu potencial | Notícias do MIT



A aprendizagem guiada permite que redes neurais “intreináveis” realizem seu potencial | Notícias do MIT

Mesmo redes há muito consideradas “impossíveis de treinar” podem aprender de forma eficaz com um pouco de ajuda. Pesquisadores do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL) do MIT mostraram que um breve período de alinhamento entre redes neurais, um método que eles chamam de orientação, pode melhorar drasticamente o desempenho de arquiteturas anteriormente consideradas inadequadas para tarefas modernas.

As suas descobertas sugerem que muitas redes ditas “ineficazes” podem simplesmente partir de pontos de partida nada ideais e que a orientação a curto prazo pode colocá-las numa situação que facilita a aprendizagem da rede.

O método de orientação da equipe funciona incentivando uma rede-alvo a corresponder às representações internas de uma rede de guias durante o treinamento. Ao contrário dos métodos tradicionais, como a destilação do conhecimento, que se concentram na imitação dos resultados de um professor, a orientação transfere o conhecimento estrutural diretamente de uma rede para outra. Isso significa que o alvo aprende como o guia organiza as informações dentro de cada camada, em vez de simplesmente copiar seu comportamento. Notavelmente, mesmo redes não treinadas contêm preconceitos arquitetônicos que podem ser transferidos, enquanto guias treinados transmitem adicionalmente padrões aprendidos.

“Achamos esses resultados bastante surpreendentes”, diz Vighnesh Subramaniam ’23, MEng ’24, estudante de doutorado do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT e pesquisador do CSAIL, que é o autor principal de um papel apresentando essas descobertas. “É impressionante que possamos usar a similaridade representacional para fazer com que essas redes tradicionalmente ‘ruins’ realmente funcionem.”

Anjo guia

Uma questão central period se a orientação deve continuar durante todo o treinamento ou se o seu efeito principal é proporcionar uma melhor inicialização. Para explorar isso, os pesquisadores realizaram um experimento com redes totalmente conectadas (FCNs). Antes de treinar no problema actual, a rede passou algumas etapas praticando com outra rede usando ruído aleatório, como alongamento antes do exercício. Os resultados foram impressionantes: redes que normalmente se ajustavam demais permaneceram imediatamente estáveis, alcançaram menor perda de treinamento e evitaram a clássica degradação de desempenho observada em algo chamado FCNs padrão. Este alinhamento funcionou como um aquecimento útil para a rede, mostrando que mesmo uma curta sessão prática pode trazer benefícios duradouros sem a necessidade de orientação constante.

O estudo também comparou a orientação à destilação do conhecimento, uma abordagem standard na qual uma rede de estudantes tenta imitar os resultados de um professor. Quando a rede do professor não estava treinada, a destilação falhou completamente, uma vez que as saídas não continham nenhum sinal significativo. A orientação, pelo contrário, ainda produziu grandes melhorias porque aproveita representações internas em vez de previsões finais. Este resultado ressalta um perception importante: redes não treinadas já codificam vieses arquitetônicos valiosos que podem orientar outras redes em direção a um aprendizado eficaz.

Além dos resultados experimentais, as descobertas têm amplas implicações para a compreensão da arquitetura de redes neurais. Os pesquisadores sugerem que o sucesso – ou o fracasso – geralmente depende menos de dados específicos da tarefa e mais da posição da rede no espaço de parâmetros. Ao alinhar-se com uma rede de orientação, é possível separar as contribuições dos preconceitos arquitetônicos daquelas do conhecimento aprendido. Isto permite aos cientistas identificar quais características do design de uma rede apoiam a aprendizagem eficaz e quais desafios decorrem simplesmente de uma inicialização deficiente.

A orientação também abre novos caminhos para estudar as relações entre arquiteturas. Ao medir a facilidade com que uma rede pode guiar outra, os pesquisadores podem sondar distâncias entre projetos funcionais e reexaminar teorias de otimização de redes neurais. Como o método depende da similaridade representacional, ele pode revelar estruturas anteriormente ocultas no projeto de redes, ajudando a identificar quais componentes contribuem mais para a aprendizagem e quais não.

Salvando os desesperados

Em última análise, o trabalho mostra que as chamadas redes “intreináveis” não estão inerentemente condenadas. Com orientação, os modos de falha podem ser eliminados, o overfitting evitado e arquiteturas anteriormente ineficazes alinhadas com os padrões de desempenho modernos. A equipe CSAIL planeja explorar quais elementos arquitetônicos são os maiores responsáveis ​​por essas melhorias e como esses insights podem influenciar o design futuro da rede. Ao revelar o potencial oculto até mesmo das redes mais teimosas, a orientação fornece uma nova ferramenta poderosa para compreender — e, esperançosamente, moldar — os fundamentos do aprendizado de máquina.

“É geralmente assumido que diferentes arquiteturas de redes neurais têm pontos fortes e fracos específicos”, diz Leyla Isik, professora assistente de ciências cognitivas da Universidade Johns Hopkins, que não esteve envolvida na pesquisa. “Esta pesquisa emocionante mostra que um tipo de rede pode herdar as vantagens de outra arquitetura, sem perder suas capacidades originais. Notavelmente, os autores mostram que isso pode ser feito usando redes ‘guia’ pequenas e não treinadas. Este artigo apresenta uma maneira nova e concreta de adicionar diferentes vieses indutivos em redes neurais, o que é basic para o desenvolvimento de uma IA mais eficiente e alinhada ao ser humano.”

Subramaniam escreveu o artigo com colegas do CSAIL: Cientista Pesquisador Brian Cheung; Aluno de doutorado David Mayo ’18, MEng ’19; Pesquisador Associado Colin Conwell; os investigadores principais Boris Katz, principal cientista pesquisador do CSAIL, e Tomaso Poggio, professor do MIT em ciências cerebrais e cognitivas; e o ex-cientista pesquisador do CSAIL Andrei Barbu. Seu trabalho foi apoiado, em parte, pelo Heart for Brains, Minds, and Machines, pela Nationwide Science Basis, pela MIT CSAIL Machine Studying Purposes Initiative, pelo MIT-IBM Watson AI Lab, pela Agência de Projetos de Pesquisa Avançada de Defesa dos EUA (DARPA), pelo Acelerador de Inteligência Synthetic do Departamento da Força Aérea dos EUA e pelo Escritório de Pesquisa Científica da Força Aérea dos EUA.

Seu trabalho foi recentemente apresentado na Conferência e Workshop sobre Sistemas de Processamento de Informação Neural (NeurIPS).

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *