Projeto de sistemas de imagem baseado em informações – The Berkeley Synthetic Intelligence Analysis Weblog



Projeto de sistemas de imagem baseado em informações – The Berkeley Synthetic Intelligence Analysis Weblog

Um codificador (sistema óptico) mapeia objetos em imagens sem ruído, cujo ruído corrompe em medições. Nosso estimador de informações usa apenas essas medições ruidosas e um modelo de ruído para quantificar quão bem as medições distinguem os objetos.

Muitos sistemas de imagem produzem medições que os humanos nunca veem ou não conseguem interpretar diretamente. Seu smartphone processa dados brutos do sensor por meio de algoritmos antes de produzir a foto remaining. Os scanners de ressonância magnética coletam medições do espaço de frequência que requerem reconstrução antes que os médicos possam visualizá-las. Carros autônomos processam dados de câmeras e LiDAR diretamente com redes neurais.

O que importa nesses sistemas não é a aparência das medições, mas a quantidade de informações úteis que elas contêm. A IA pode extrair essas informações mesmo quando elas estão codificadas de maneiras que os humanos não conseguem interpretar.

E ainda assim raramente avaliamos diretamente o conteúdo da informação. Métricas tradicionais, como resolução e relação sinal-ruído, avaliam aspectos individuais de qualidade separadamente, dificultando a comparação de sistemas que compensam esses fatores. A alternativa comum, treinar redes neurais para reconstruir ou classificar imagens, combina a qualidade do {hardware} de imagem com a qualidade do algoritmo.

Desenvolvemos uma estrutura que permite avaliação direta e otimização de sistemas de imagem com base em seu conteúdo de informação. Em nosso Artigo NeurIPS 2025mostramos que essa métrica de informação prevê o desempenho do sistema em quatro domínios de imagem e que sua otimização produz designs que correspondem aos métodos ponta a ponta de última geração, exigindo menos memória, menos computação e nenhum design de decodificador específico para tarefas.

Por que informação mútua?

A informação mútua quantifica o quanto uma medição reduz a incerteza sobre o objeto que a produziu. Dois sistemas com a mesma informação mútua são equivalentes na sua capacidade de distinguir objetos, mesmo que as suas medidas pareçam completamente diferentes.

Este número único captura o efeito combinado de resolução, ruído, amostragem e todos os outros fatores que afetam a qualidade da medição. Uma imagem borrada e com ruído que preserva os recursos necessários para distinguir objetos pode conter mais informações do que uma imagem nítida e limpa que perde esses recursos.



As informações unificam métricas de qualidade tradicionalmente separadas. Ele considera o ruído, a resolução e a sensibilidade espectral juntos, em vez de tratá-los como fatores independentes.

Tentativas anteriores de aplicar a teoria da informação à imagem enfrentaram dois problemas. A primeira abordagem tratou os sistemas de imagem como canais de comunicação irrestritos, ignorando as limitações físicas das lentes e sensores. Isso produziu estimativas extremamente imprecisas. A segunda abordagem exigia modelos explícitos dos objetos fotografados, limitando a generalidade.

Nosso método evita ambos os problemas ao estimar informações diretamente das medições.

Estimando informações de medições

Estimar informações mútuas entre variáveis ​​de alta dimensão é notoriamente difícil. Os requisitos de amostra crescem exponencialmente com a dimensionalidade e as estimativas sofrem de alto viés e variância.

No entanto, os sistemas de imagem possuem propriedades que permitem decompor este difícil problema em subproblemas mais simples. A informação mútua pode ser escrita como:

(I(X; Y) = H(Y) – H(Y mid X))

O primeiro termo, $H(Y)$, mede a variação complete nas medições tanto das diferenças dos objetos quanto do ruído. O segundo termo, $H(Y mid X)$, mede a variação apenas do ruído.



A informação mútua é igual à diferença entre a variação complete da medição e a variação apenas do ruído.

Os sistemas de imagem apresentam ruído bem caracterizado. O ruído do disparo de fótons segue uma distribuição de Poisson. O ruído da leitura eletrônica é gaussiano. Essa conhecida física do ruído significa que podemos calcular $H(Y mid X)$ diretamente, deixando apenas $H(Y)$ para ser aprendido com os dados.

Para $H(Y)$, ajustamos um modelo probabilístico (por exemplo, um transformador ou outro modelo autorregressivo) a um conjunto de dados de medições. O modelo aprende a distribuição de todas as medidas possíveis. Testamos três modelos que abrangem compensações entre eficiência e precisão: um processo gaussiano estacionário (mais rápido), um gaussiano completo (intermediário) e um PixelCNN autorregressivo (mais preciso). A abordagem fornece um limite superior para informações verdadeiras; qualquer erro de modelagem só pode superestimar, nunca subestimar.

Validação em quatro domínios de imagem

As estimativas de informações devem prever o desempenho do decodificador se capturarem o que limita os sistemas reais. Testamos essa relação em quatro aplicativos de imagem.



As estimativas de informações prevêem o desempenho do decodificador em fotografia colorida, radioastronomia, imagem sem lente e microscopia. Informações mais altas produzem consistentemente melhores resultados em tarefas posteriores.

Fotografia colorida. As câmeras digitais codificam cores usando matrizes de filtros que restringem cada pixel para detectar apenas determinados comprimentos de onda. Comparamos três designs de filtros: o padrão Bayer tradicional, um arranjo aleatório e um arranjo aprendido. As estimativas de informações classificaram corretamente quais designs produziriam melhores reconstruções de cores, correspondendo às classificações do demosaicing da rede neural sem a necessidade de qualquer algoritmo de reconstrução.

Radioastronomia. Matrizes de telescópios alcançam alta resolução angular combinando sinais de locais em todo o mundo. A seleção de locais ideais para telescópios é computacionalmente intratável porque o valor de cada native depende de todos os outros. As estimativas de informações previram a qualidade da reconstrução em todas as configurações do telescópio, permitindo a seleção do native sem a dispendiosa reconstrução de imagens.

Imagem sem lente. As câmeras sem lentes substituem a óptica tradicional por máscaras moduladoras de luz. Suas medidas não apresentam nenhuma semelhança visible com cenas. As estimativas de informações previram a precisão da reconstrução em uma lente, conjunto de microlentes e design de difusor em vários níveis de ruído.

Microscopia. Os microscópios de matriz de LED usam iluminação programável para gerar diferentes modos de contraste. Estimativas de informações correlacionadas com a precisão da rede neural na previsão da expressão de proteínas a partir de imagens celulares, permitindo a avaliação sem experimentos caros de rotulagem de proteínas.

Em todos os casos, mais informação significou melhor desempenho a jusante.

Projetando sistemas com IDEAL

As estimativas de informação podem fazer mais do que avaliar os sistemas existentes. Nosso método Data-Pushed Encoder Evaluation Studying (IDEAL) usa subida gradiente nas estimativas de informações para otimizar os parâmetros do sistema de imagem.



O IDEAL otimiza os parâmetros do sistema de imagem por meio de suggestions de gradiente nas estimativas de informações, sem a necessidade de uma rede de decodificadores.

A abordagem padrão para projeto de imagem computacional, otimização ponta a ponta, treina em conjunto o {hardware} de imagem e um decodificador de rede neural. Isso requer retropropagação por todo o decodificador, criando restrições de memória e possíveis dificuldades de otimização.

IDEAL evita esses problemas otimizando apenas o codificador. Nós testamos no design do filtro de cores. Partindo de um arranjo aleatório de filtros, a IDEAL melhorou progressivamente o design. O resultado remaining correspondeu à otimização de ponta a ponta tanto no conteúdo da informação quanto na qualidade da reconstrução.



IDEAL corresponde ao desempenho de otimização ponta a ponta, evitando a complexidade do decodificador durante o treinamento.

Implicações

A avaliação baseada em informações cria novas possibilidades para avaliação rigorosa de sistemas de imagem em condições do mundo actual. As abordagens atuais exigem avaliação visible subjetiva, dados reais que não estão disponíveis na implantação ou métricas isoladas que perdem a capacidade geral. Nosso método fornece uma métrica objetiva e unificada apenas a partir de medições.

A eficiência computacional do IDEAL sugere possibilidades para projetar sistemas de imagem que antes eram intratáveis. Ao evitar a retropropagação do decodificador, a abordagem reduz os requisitos de memória e a complexidade do treinamento. Exploramos essas capacidades mais extensivamente em trabalho de acompanhamento.

A estrutura pode se estender além da imagem para outros domínios de detecção. Qualquer sistema que possa ser modelado como codificação determinística com características de ruído conhecidas poderia se beneficiar de avaliação e projeto baseados em informações, incluindo sensores eletrônicos, biológicos e químicos.


Esta postagem é baseada em nosso artigo NeurIPS 2025 “Projeto de sistemas de imagem baseado em informação”. O código está disponível em GitHub. Um resumo em vídeo está disponível no website do projeto.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *