Uma “caixa de areia científica” permite aos pesquisadores explorar a evolução dos sistemas de visão | Notícias do MIT



Uma “caixa de areia científica” permite aos pesquisadores explorar a evolução dos sistemas de visão | Notícias do MIT

Por que os humanos desenvolveram os olhos que temos hoje?

Embora os cientistas não possam voltar no tempo para estudar as pressões ambientais que moldaram a evolução dos diversos sistemas de visão que existem na natureza, uma nova estrutura computacional desenvolvida por investigadores do MIT permite-lhes explorar esta evolução em agentes de inteligência synthetic.

A estrutura que desenvolveram, na qual os agentes de IA incorporados desenvolvem olhos e aprendem a ver ao longo de muitas gerações, é como uma “caixa de areia científica” que permite aos investigadores recriar diferentes árvores evolutivas. O usuário faz isso alterando a estrutura do mundo e as tarefas que os agentes de IA realizam, como encontrar comida ou diferenciar objetos.

Isto permite-lhes estudar porque é que um animal pode ter desenvolvido manchas simples e sensíveis à luz como olhos, enquanto outro tem olhos complexos, do tipo câmara.

Os experimentos dos pesquisadores com esta estrutura mostram como as tarefas impulsionaram a evolução ocular dos agentes. Por exemplo, descobriram que as tarefas de navegação levaram frequentemente à evolução de olhos compostos com muitas unidades individuais, como os olhos dos insectos e dos crustáceos.

Por outro lado, se os agentes se concentrassem na discriminação de objetos, teriam maior probabilidade de desenvolver olhos do tipo câmera com íris e retinas.

Esta estrutura poderia permitir aos cientistas investigar questões “e se” sobre sistemas de visão que são difíceis de estudar experimentalmente. Também poderia orientar o design de novos sensores e câmeras para robôs, drones e dispositivos vestíveis que equilibrem o desempenho com as restrições do mundo actual, como eficiência energética e capacidade de fabricação.

“Embora nunca possamos voltar atrás e descobrir todos os detalhes de como a evolução ocorreu, neste trabalho criamos um ambiente onde podemos, de certa forma, recriar a evolução e investigar o ambiente de todas essas maneiras diferentes. Este método de fazer ciência abre a porta para muitas possibilidades”, diz Kushagra Tiwary, estudante de pós-graduação no MIT Media Lab e co-autor principal de um artigo sobre esta pesquisa.

Ele é acompanhado no artigo pelo co-autor principal e colega estudante de graduação Aaron Younger; o estudante de pós-graduação Tzofi Klinghoffer; o ex-pós-doutorado Akshat Dave, que agora é professor assistente na Stony Brook College; Tomaso Poggio, professor Eugene McDermott no Departamento de Cérebro e Ciências Cognitivas, investigador do Instituto McGovern e codiretor do Centro para Cérebros, Mentes e Máquinas; co-autores seniores Brian Cheung, pós-doutorado no Middle for Brains, Minds, and Machines e professor assistente na Universidade da Califórnia em São Francisco; e Ramesh Raskar, professor associado de artes e ciências da mídia e líder do Digital camera Tradition Group do MIT; bem como outros na Rice College e na Lund College. A pesquisa aparece hoje em Avanços da Ciência.

Construindo uma sandbox científica

O artigo começou como uma conversa entre pesquisadores sobre a descoberta de novos sistemas de visão que poderiam ser úteis em diferentes campos, como a robótica. Para testar suas perguntas “e se”, os pesquisadores decidiram use IA para explorar as muitas possibilidades evolutivas.

“As perguntas hipotéticas inspiraram-me quando eu period criança para estudar ciências. Com a IA, temos uma oportunidade única de criar estes agentes incorporados que nos permitem fazer perguntas que normalmente seriam impossíveis de responder”, diz Tiwary.

Para construir esta caixa de areia evolutiva, os pesquisadores pegaram todos os elementos de uma câmera, como sensores, lentes, aberturas e processadores, e os converteram em parâmetros que um agente de IA incorporado poderia aprender.

Eles usaram esses blocos de construção como ponto de partida para um mecanismo de aprendizagem algorítmica que um agente usaria à medida que evoluísse os olhos ao longo do tempo.

“Não podíamos simular todo o universo, átomo por átomo. Foi um desafio determinar quais ingredientes precisávamos, quais ingredientes não precisávamos e como alocar recursos entre esses diferentes elementos”, diz Cheung.

Na sua estrutura, este algoritmo evolutivo pode escolher quais elementos evoluir com base nas restrições do ambiente e na tarefa do agente.

Cada ambiente tem uma única tarefa, como navegação, identificação de alimentos ou rastreamento de presas, projetada para imitar tarefas visuais reais que os animais devem superar para sobreviver. Os agentes começam com um único fotorreceptor que olha para o mundo e um modelo de rede neural associado que processa informações visuais.

Depois, ao longo da vida de cada agente, ele é treinado usando aprendizagem por reforço, uma técnica de tentativa e erro em que o agente é recompensado por cumprir o objetivo de sua tarefa. O ambiente também incorpora restrições, como um certo número de pixels para os sensores visuais de um agente.

“Essas restrições orientam o processo de design, da mesma forma que temos restrições físicas em nosso mundo, como a física da luz, que orientam o design dos nossos próprios olhos”, diz Tiwary.

Ao longo de muitas gerações, os agentes desenvolvem diferentes elementos de sistemas de visão que maximizam as recompensas.

Sua estrutura usa um mecanismo de codificação genética para imitar computacionalmente a evolução, onde genes individuais sofrem mutação para controlar o desenvolvimento de um agente.

Por exemplo, os genes morfológicos capturam como o agente vê o ambiente e controla a colocação dos olhos; os genes ópticos determinam como o olho interage com a luz e determinam o número de fotorreceptores; e os genes neurais controlam a capacidade de aprendizagem dos agentes.

Testando hipóteses

Quando os pesquisadores realizaram experimentos nesta estrutura, descobriram que as tarefas tinham uma grande influência nos sistemas de visão que os agentes desenvolveram.

Por exemplo, os agentes focados em tarefas de navegação desenvolveram olhos projetados para maximizar a consciência espacial através de detecção de baixa resolução, enquanto os agentes encarregados de detectar objetos desenvolveram olhos focados mais na acuidade frontal do que na visão periférica.

Outro experimento indicou que um cérebro maior nem sempre é melhor quando se trata de processar informações visuais. Somente um determinado número de informações visuais pode entrar no sistema por vez, com base em restrições físicas, como o número de fotorreceptores nos olhos.

“Em algum momento, um cérebro maior não ajuda em nada os agentes e, na natureza, isso seria um desperdício de recursos”, diz Cheung.

No futuro, os pesquisadores querem usar este simulador para explorar os melhores sistemas de visão para aplicações específicas, o que poderia ajudar os cientistas a desenvolver sensores e câmeras para tarefas específicas. Eles também desejam integrar LLMs em sua estrutura para tornar mais fácil para os usuários fazerem perguntas “e se” e estudarem possibilidades adicionais.

“Há um benefício actual em fazer perguntas de uma forma mais imaginativa. Espero que isso encourage outros a criar estruturas maiores, onde, em vez de se concentrarem em questões restritas que cobrem uma área específica, procurem responder a perguntas com um escopo muito mais amplo”, diz Cheung.

Este trabalho foi apoiado, em parte, pelo programa Middle for Brains, Minds, and Machines e pela Protection Superior Analysis Tasks Company (DARPA) Arithmetic for the Discovery of Algorithms and Architectures (DIAL).

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *