Para testar se este problema se aplica aos grandes modelos multimodais atuais, a equipe conduziu uma avaliação controlada. Eles treinaram os modelos selecionados em cinco tarefas alvo, incluindo classificação refinada de pássaros, contagem, resposta a perguntas visuais médicas, leitura de OCR e leitura de tempo. Eles então mediram a queda no desempenho em oito benchmarks padrão que não faziam parte do conjunto de ajuste fino.
Esses experimentos levaram a duas descobertas importantes, de acordo com o artigo. Ajustar apenas as camadas de projeção de autoatenção (SA Proj), a parte do modelo que o ajuda a decidir em quais elementos de entrada focar, permitiu que os modelos aprendessem novas tarefas com pouco ou nenhum esquecimento mensurável. Além disso, o que inicialmente parecia ser conhecimento esquecido muitas vezes ressurgiu quando o modelo foi posteriormente treinado em outra tarefa especializada.
“Assim, levantamos a hipótese de que talvez o que parece ser esquecimento ou interferência após o ajuste fino em uma tarefa alvo restrita seja, na verdade, um viés na distribuição de resultados devido à mudança na distribuição de tarefas”, acrescentaram os pesquisadores. “Através de uma análise aprofundada ao ajustar a tarefa de contagem, confirmamos esta hipótese: ajustar o MLP aumenta a precisão do alvo, mas também aumenta a probabilidade de gerar tokens numéricos e uma queda altamente correlacionada na precisão da tarefa retida, enquanto o ajuste da autoatenção atinge o aprendizado alvo sem muito preconceito em relação aos tokens numéricos e sem perder a precisão retida.”