Para nós, humanos, escolher os recursos visuais mais importantes em uma cena vem naturalmente. Se há alguém em pé na nossa frente conversando, direcionamos nosso olhar para eles, não para as árvores ao fundo. Mas para máquinas, nada vem naturalmente. Quando suas câmeras tiram uma foto, tudo o que eles “sabem” é que existem milhões de pixels individuais e coloridos para examinar. Explorar computacionalmente todos os pixels da imagem, em diferentes escalas, é uma maneira muito ineficiente de encontrar elementos importantes; portanto, são necessários melhores métodos.
Nos últimos anos, surgiram métodos como modelos de saliência, redes neurais convolucionais e transformadores de visão (VITs). Essas abordagens mostraram alguma promessa, mas, de uma maneira ou de outra, não imitam padrões de atenção visible do tipo humano. Mas, recentemente, um trio de pesquisadores da Universidade de Osaka teve uma idéia que poderia mudar tudo isso. Eles descobriram que os Vits podem ser capazes de aprender padrões de atenção visible semelhantes a humanos, mas apenas se forem treinados da maneira certa.
Comparando padrões de olhar humano com a atenção da vitória (📷: T. Yamamoto et al.)
Os pesquisadores descobriram que, quando os Vits são treinados usando uma técnica auto-supervisionada conhecida como dino, eles podem desenvolver espontaneamente padrões de atenção que intimamente imitando o comportamento do olhar humano. Diferentemente das abordagens de treinamento tradicionais que dependem de conjuntos de dados rotulados para ensinar modelos onde procurar, o DINO permite que um modelo aprenda, organizando dados visuais brutos sem orientação humana.
Para testar sua teoria, a equipe comparou dados de rastreamento ocular humanos com os padrões de atenção gerados pelos Vits treinados usando o aprendizado supervisionado convencional e o método DINO. Eles descobriram que os modelos treinados por dino não apenas se concentraram de maneira mais coerente em partes relevantes da cena visible, mas na verdade refletiram a maneira como as pessoas olham para os vídeos.
Esse comportamento foi especialmente perceptível em cenas envolvendo figuras humanas. Algumas partes do modelo se concentraram consistentemente em rostos, outros em corpos humanos completos e alguma atenção direcionada ao fundo – espelhando como os sistemas visuais humanos se diferenciam entre as figuras e seu ambiente. Os pesquisadores rotularam esses três grupos de atenção como G1 (olhos e pontos -chave), G2 (figuras inteiras) e G3 (fundo), observando uma forte semelhança com a maneira como as pessoas segmentam naturalmente cenas visuais.
O modelo aprendeu comportamento humano (📷: T. Yamamoto et al.)
Modelos tradicionais como mapas de saliência e preditores de olhar de aprendizado profundo geralmente ficam aquém, porque dependem de recursos artesanais ou porque não têm plausibilidade biológica. Mas os Vits treinados por dino parecem superar essas questões, sugerindo que as máquinas podem ser capazes de desenvolver a percepção do tipo humano com a abordagem de treinamento correta.
Este trabalho abre a porta para sistemas de IA mais intuitivos que se alinham mais de perto com a maneira como os humanos veem o mundo. As aplicações em potencial variam de robótica e interação humano-computador a ferramentas de desenvolvimento para crianças e tecnologias assistivas.