Entrevista com Yuki Mitsufuji: Melhorando a geração de imagens da IA


Entrevista com Yuki Mitsufuji: Melhorando a geração de imagens da IA
Yuki Mitsufuji é um cientista de pesquisa líder da Sony AI. Yuki e sua equipe apresentaram dois trabalhos na recente conferência sobre sistemas de processamento de informações neurais (Neurips 2024). Esses trabalhos abordam diferentes aspectos da geração de imagens e têm direito: Genwarp: imagem única para novas vistas com deformação generativa de preservação semântica e PAGODA: O crescimento progressivo de um gerador de uma etapa de um professor de difusão de baixa resolução . Conversamos com Yuki para descobrir mais sobre esta pesquisa.

Há duas pesquisas sobre as quais gostaríamos de perguntar hoje. Podemos começar com o papel de Genwarp? Você poderia descrever o problema em que estava focado neste trabalho?

O problema que pretendemos resolver é chamado de síntese de visualização de romance único, é onde você tem uma imagem e deseja criar outra imagem da mesma cena a partir de um ângulo de câmera diferente. Houve muito trabalho nesse espaço, mas um grande desafio permanece: quando um ângulo de imagem muda substancialmente, a qualidade da imagem se degrada significativamente. Queríamos poder gerar uma nova imagem com base em uma única imagem, além de melhorar a qualidade, mesmo em configurações de mudança de ângulo muito desafiadoras.

Como você resolveu esse problema – qual foi a sua metodologia?

Os trabalhos existentes neste espaço tendem a aproveitar a estimativa de profundidade monocular, o que significa que apenas uma única imagem é usada para estimar a profundidade. Esta informação de profundidade nos permite alterar o ângulo e alterar a imagem de acordo com esse ângulo – chamamos de “distorção”. Obviamente, haverá algumas peças ocluídas na imagem, e haverá informações ausentes na imagem unique sobre como criar a imagem a partir de um novo ângulo. Portanto, sempre há uma segunda fase em que outro módulo pode interpolar a região ocluída. Devido a essas duas fases, no trabalho existente nessa área, os erros geométricos introduzidos em deformação não podem ser compensados ​​na fase de interpolação.

Nós resolvemos esse problema fundindo tudo. Não adotamos uma abordagem bifásica, mas fazemos tudo de uma só vez em um único modelo de difusão. Para preservar o significado semântico da imagem, criamos outra rede neural que pode extrair as informações semânticas de uma determinada imagem, bem como informações de profundidade monocular. Nós o injetamos usando um mecanismo de atimento cruzado, no modelo de difusão base principal. Como a deformação e a interpolação foram feitas em um modelo, e a parte ocluída pode ser reconstruída muito bem, juntamente com as informações semânticas injetadas de fora, vimos a qualidade geral melhorada. Vimos melhorias na qualidade da imagem subjetivamente e objetivamente, usando métricas como Fid e Psnr.

As pessoas podem ver algumas das imagens criadas usando Genwarp?

Sim, na verdade temos um demonstraçãoque consiste em duas partes. Um mostra a imagem unique e o outro mostra as imagens distorcidas de diferentes ângulos.

Passando para o artigo de pagode, aqui você estava abordando o alto custo computacional dos modelos de difusão? Como você abordou esse problema?

Os modelos de difusão são muito populares, mas é sabido que eles são muito caros para treinamento e inferência. Abordamos esse problema propondo o pagode, nosso modelo que aborda a eficiência do treinamento e a eficiência da inferência.

É fácil falar sobre eficiência de inferência, que se conecta diretamente à velocidade da geração. A difusão geralmente leva muitas etapas iterativas para a saída ultimate gerada – nosso objetivo period pular essas etapas para que pudéssemos gerar rapidamente uma imagem em apenas uma etapa. As pessoas chamam de “geração de uma etapa” ou “difusão de uma etapa”. Nem sempre precisa ser um passo; Pode ser duas ou três etapas, por exemplo, “difusão de algumas etapas”. Basicamente, o alvo é resolver o gargalo da difusão, que é um método de geração iterativa múltipla e demorada.

Nos modelos de difusão, a geração de uma saída é tipicamente um processo lento, exigindo muitas etapas iterativas para produzir o resultado ultimate. Uma tendência elementary no avanço desses modelos é treinar um “modelo de estudante” que destilar o conhecimento de um modelo de difusão pré-treinado. Isso permite uma geração mais rápida – às vezes produz uma imagem em apenas uma etapa. Estes são frequentemente chamados de modelos de difusão destilados. Destilação significa que, dado um professor (um modelo de difusão), usamos essas informações para treinar outro modelo de uma eficiência de uma etapa. Chamamos de destilação porque podemos destilar as informações do modelo unique, que têm vasto conhecimento sobre como gerar boas imagens.

No entanto, os modelos de difusão clássicos e seus colegas destilados geralmente estão ligados a uma resolução de imagem fixa. Isso significa que, se desejarmos um modelo de difusão destilado de alta resolução capaz de geração de uma etapa, precisaríamos treinar novamente o modelo de difusão e depois destilar-o novamente na resolução desejada.

Isso torna todo o pipeline de treinamento e geração bastante tedioso. Cada vez que uma resolução mais alta é necessária, precisamos treinar o modelo de difusão do zero e passar pelo processo de destilação novamente, adicionando complexidade e tempo significativos ao fluxo de trabalho.

A singularidade do pagode é que treinamos em diferentes modelos de resolução em um sistema, o que permite obter uma geração de uma etapa, tornando o fluxo de trabalho muito mais eficiente.

Por exemplo, se queremos destilar um modelo para imagens de 128 × 128, podemos fazer isso. Mas se quisermos fazer isso para outra escala, 256 × 256, digamos, devemos ter o professor treinar em 256 × 256. Se queremos estendê -lo ainda mais para resoluções mais altas, precisamos fazer isso várias vezes. Isso pode ser muito caro; portanto, para evitar isso, usamos a idéia de treinamento progressivo em crescimento, que já foi estudado na área de redes adversárias generativas (GANs), mas não tanto no espaço de difusão. A idéia é que, dado o modelo de difusão do professor treinado em 64 × 64, podemos destilar informações e treinar um modelo de uma etapa para qualquer resolução. Para muitos casos de resolução, podemos obter um desempenho de última geração usando o pagode.

Você poderia dar uma idéia aproximada da diferença no custo computacional entre seu método e modelos de difusão padrão. Que tipo de economia você faz?

A ideia é muito simples – apenas ignoramos as etapas iterativas. É altamente dependente do modelo de difusão que você usa, mas um modelo de difusão padrão típico no passado usado historicamente cerca de 1000 etapas. E agora, modelos de difusão modernos e bem otimizados requerem 79 etapas. Com o nosso modelo que desce para um passo, estamos olhando para ele cerca de 80 vezes mais rápido, em teoria. Obviamente, tudo depende de como você implementa o sistema e, se houver um mecanismo de paralelização nos chips, as pessoas podem explorá -lo.

Há mais alguma coisa que você gostaria de acrescentar sobre qualquer um dos projetos?

Por fim, queremos alcançar a geração em tempo actual, e não apenas para que essa geração seja limitada às imagens. A geração de som em tempo actual é uma área que estamos olhando.

Além disso, como você pode ver na demonstração de animação de Genwarp, as imagens mudam rapidamente, fazendo com que pareça uma animação. No entanto, a demonstração foi criada com muitas imagens geradas com modelos de difusão dispendiosos offline. Se pudéssemos alcançar uma geração de alta velocidade, digamos com o Pagoda, teoricamente, poderíamos criar imagens de qualquer ângulo em tempo actual.

Saiba mais:

Sobre Yuki Mitsufuji

Yuki Mitsufuji é um cientista de pesquisa líder da Sony AI. Além de seu papel na Sony AI, ele é um engenheiro distinto da Sony Group Company e o chefe do Artistic AI Lab for Sony R&D. Yuki é doutorado em Ciência e Tecnologia da Informação pela Universidade de Tóquio. Seu trabalho inovador fez dele um pioneiro na música elementary e no trabalho sonoro, como separação de som e outros modelos generativos que podem ser aplicados à música, som e outras modalidades.




AiHub
é uma organização sem fins lucrativos dedicada a conectar a comunidade de IA ao público, fornecendo informações gratuitas e de alta qualidade na IA.

O AiHub é uma organização sem fins lucrativos dedicada a conectar a comunidade de IA ao público, fornecendo informações gratuitas e de alta qualidade na IA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *