Em 1994, a designer de joias da Flórida, Diana Duyser, descobriu o que ela acreditava ser a imagem da Virgem Maria em um sanduíche de queijo grelhado, que ela preservou e posteriormente leiloou por US$ 28 mil. Mas até que ponto entendemos realmente sobre a pareidolia, o fenómeno de ver rostos e padrões em objectos quando na verdade não existem?
Um novo estudar do Laboratório de Ciência da Computação e Inteligência Synthetic do MIT (CSAIL) investiga esse fenômeno, introduzindo um extenso conjunto de dados rotulados por humanos de 5.000 imagens pareidólicas, superando em muito as coleções anteriores. Usando este conjunto de dados, a equipe descobriu vários resultados surpreendentes sobre as diferenças entre a percepção humana e a da máquina, e como a capacidade de ver rostos numa fatia de torrada pode ter salvado a vida de parentes distantes.
“A pareidolia facial há muito fascina psicólogos, mas tem sido amplamente inexplorada na comunidade de visão computacional”, diz Mark Hamilton, estudante de doutorado do MIT em engenharia elétrica e ciência da computação, afiliado do CSAIL e pesquisador principal do trabalho. “Queríamos criar um recurso que pudesse nos ajudar a entender como os humanos e os sistemas de IA processam essas faces ilusórias.”
Então, o que todos esses rostos falsos revelaram? Por um lado, os modelos de IA não parecem reconhecer rostos pareidólicos como nós. Surpreendentemente, a equipe descobriu que só depois de treinar algoritmos para reconhecer rostos de animais é que eles se tornaram significativamente melhores na detecção de rostos pareidólicos. Esta ligação inesperada sugere uma possível ligação evolutiva entre a nossa capacidade de detectar rostos de animais – essential para a sobrevivência – e a nossa tendência para ver rostos em objectos inanimados. “Um resultado como este parece sugerir que a pareidolia pode não surgir do comportamento social humano, mas de algo mais profundo: como avistar rapidamente um tigre à espreita ou identificar para que lado um cervo está olhando para que nossos ancestrais primordiais possam caçar”, diz Hamilton.
Outra descoberta intrigante é o que os pesquisadores chamam de “Zona Cachinhos Dourados da Pareidolia”, uma classe de imagens onde a pareidolia tem maior probabilidade de ocorrer. “Há uma gama específica de complexidade visible em que tanto os humanos como as máquinas têm maior probabilidade de perceber rostos em objetos que não sejam rostos”, diz William T. Freeman, professor de engenharia elétrica e ciência da computação do MIT e investigador principal do projeto. “Muito simples e não há detalhes suficientes para formar um rosto. Muito complexo e torna-se ruído visible.”
Para descobrir isso, a equipe desenvolveu uma equação que modela como as pessoas e os algoritmos detectam rostos ilusórios. Ao analisar esta equação, encontraram um claro “pico pareidólico” onde a probabilidade de ver rostos é maior, correspondendo a imagens que têm “a quantidade certa” de complexidade. Esta “zona Cachinhos Dourados” prevista foi então validada em testes com seres humanos reais e sistemas de detecção facial de IA.
Este novo conjunto de dados, “Rostos nas coisas”, supera os estudos anteriores que normalmente usavam apenas 20 a 30 estímulos. Essa escala permitiu aos pesquisadores explorar como os algoritmos de detecção de rostos de última geração se comportavam após o ajuste fino em rostos pareidólicos, mostrando que esses algoritmos não apenas poderiam ser editados para detectar esses rostos, mas também poderiam atuar como um silício. substituto de nosso próprio cérebro, permitindo que a equipe faça e responda perguntas sobre as origens da detecção de rosto pareidólico que são impossíveis de serem feitas em humanos.
Para construir este conjunto de dados, a equipe selecionou aproximadamente 20.000 imagens candidatas do conjunto de dados LAION-5B, que foram então meticulosamente rotuladas e julgadas por anotadores humanos. Este processo envolveu desenhar caixas delimitadoras em torno dos rostos percebidos e responder a perguntas detalhadas sobre cada rosto, como a emoção percebida, a idade e se o rosto foi acidental ou intencional. “Reunir e anotar milhares de imagens foi uma tarefa monumental”, diz Hamilton. “Grande parte do conjunto de dados deve sua existência à minha mãe”, uma banqueira aposentada, “que passou inúmeras horas rotulando carinhosamente as imagens para nossa análise”.
A IA pode detectar rostos em objetos?
Vídeo: MIT CSAIL
O estudo também tem aplicações potenciais na melhoria dos sistemas de detecção facial, reduzindo falsos positivos, o que poderia ter implicações em áreas como carros autônomos, interação humano-computador e robótica. O conjunto de dados e os modelos também poderiam ajudar áreas como o design de produtos, onde a compreensão e o controle da pareidolia poderiam criar produtos melhores. “Think about ser capaz de ajustar automaticamente o design de um carro ou de um brinquedo de criança para que pareça mais amigável, ou garantir que um dispositivo médico não pareça inadvertidamente ameaçador”, diz Hamilton.
“É fascinante como os humanos interpretam instintivamente objetos inanimados com características humanas. Por exemplo, quando você olha para uma tomada elétrica, você pode imediatamente imaginá-la cantando e pode até imaginar como ela “moveria os lábios”. Os algoritmos, no entanto, não reconhecem naturalmente esses rostos de desenho animado da mesma forma que nós”, diz Hamilton. “Isso levanta questões intrigantes: o que explica essa diferença entre a percepção humana e a interpretação algorítmica? A pareidolia é benéfica ou prejudicial? Por que os algoritmos não experimentam esse efeito como nós? Estas questões desencadearam a nossa investigação, uma vez que este fenómeno psicológico clássico em humanos não tinha sido completamente explorado em algoritmos.”
À medida que os investigadores se preparam para partilhar o seu conjunto de dados com a comunidade científica, já estão a olhar para o futuro. Trabalhos futuros podem envolver o treinamento de modelos de linguagem visible para compreender e descrever rostos pareidólicos, potencialmente levando a sistemas de IA que podem interagir com estímulos visuais de maneiras mais humanas.
“Este é um artigo encantador! É divertido de ler e me faz pensar. Hamilton et al. propor uma pergunta tentadora: por que vemos rostos nas coisas?” diz Pietro Perona, professor Allen E. Puckett de Engenharia Elétrica da Caltech, que não esteve envolvido no trabalho. “Como salientam, aprender com exemplos, incluindo rostos de animais, é apenas meio caminho andado para explicar o fenómeno. Aposto que pensar sobre esta questão nos ensinará algo importante sobre como nosso sistema visible se generaliza além do treinamento que recebe ao longo da vida.”
Os co-autores de Hamilton e Freeman incluem Simon Stent, cientista pesquisador do Toyota Analysis Institute; Ruth Rosenholtz, principal cientista pesquisadora do Departamento de Cérebro e Ciências Cognitivas, cientista pesquisadora da NVIDIA e ex-membro do CSAIL; e pós-doutorado afiliados do CSAIL, Vasha DuTell, Anne Harrington MEng ’23 e a cientista pesquisadora Jennifer Corbett. Seu trabalho foi apoiado, em parte, pela Nationwide Science Basis e pela bolsa CSAIL MEnTorEd Alternatives in Analysis (METEOR), ao mesmo tempo que foi patrocinado pelo Laboratório de Pesquisa da Força Aérea dos Estados Unidos e pelo Acelerador de Inteligência Synthetic da Força Aérea dos Estados Unidos. O MIT SuperCloud e o Lincoln Laboratory Supercomputing Heart forneceram recursos de HPC para os resultados dos pesquisadores.
Este trabalho está sendo apresentado esta semana na Conferência Europeia sobre Visão Computacional.