A capacidade de gerar imagens de alta qualidade rapidamente é essential para produzir ambientes simulados realistas que podem ser usados para treinar carros autônomos para evitar riscos imprevisíveis, tornando-os mais seguros nas ruas reais.
Mas as técnicas generativas de inteligência synthetic cada vez mais usadas para produzir essas imagens têm desvantagens. Um tipo well-liked de modelo, chamado modelo de difusão, pode criar imagens incrivelmente realistas, mas é muito lento e computacionalmente intensivo para muitas aplicações. Por outro lado, os modelos autoregressivos que o Energy LLMs como o ChatGPT são muito mais rápidos, mas produzem imagens de qualidade mais pobre que geralmente estão cheias de erros.
Pesquisadores do MIT e da NVIDIA desenvolveram uma nova abordagem que reúne o melhor dos dois métodos. Sua ferramenta híbrida de geração de imagem usa um modelo autoregressivo para capturar rapidamente o quadro geral e, em seguida, um pequeno modelo de difusão para refinar os detalhes da imagem.
Sua ferramenta, conhecida como Hart (abreviação de transformador autoregressivo híbrido), pode gerar imagens que correspondam ou excedem a qualidade dos modelos de difusão de última geração, mas o fazem cerca de nove vezes mais rápido.
O processo de geração consome menos recursos computacionais do que os modelos de difusão típicos, permitindo que o Hart funcione localmente em um laptop computer ou smartphone comercial. Um usuário precisa apenas inserir um immediate de linguagem pure na interface Hart para gerar uma imagem.
A Hart pode ter uma ampla gama de aplicações, como ajudar os pesquisadores a treinar robôs a concluir tarefas complexas do mundo actual e ajudar os designers a produzir cenas impressionantes para videogames.
“Se você está pintando uma paisagem e apenas pinta a tela inteira uma vez, pode não parecer muito bom. Mas se você pintar o quadro geral e refinar a imagem com pinceladas menores, sua pintura pode parecer muito melhor. Essa é a idéia básica com Hart”, diz Haotian Tang Sm ’22, Phd ’25, co-líder de A autor de A Novo artigo sobre Hart.
Ele se junta ao co-líder Yecheng Wu, estudante de graduação da Universidade de Tsinghua; Autor sênior Music Han, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação do MIT (EECS), membro do MIT-IBM Watson AI Lab e um cientista distinto da Nvidia; bem como outros no MIT, a Universidade de Tsinghua e a Nvidia. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.
O melhor dos dois mundos
Modelos de difusão populares, como difusão estável e Dall-E, são conhecidos por produzir imagens altamente detalhadas. Esses modelos geram imagens através de um processo iterativo em que prevêem alguma quantidade de ruído aleatório em cada pixel, subtraia o ruído e repita o processo de previsão e “desmontagem” várias vezes até que gerem uma nova imagem que está completamente livre de ruído.
Como o modelo de difusão desmonta todos os pixels em uma imagem em cada etapa e pode haver 30 ou mais etapas, o processo é lento e computacionalmente caro. Mas como o modelo tem várias possibilities de corrigir os detalhes que erraram, as imagens são de alta qualidade.
Modelos autoregressivos, comumente usados para prever o texto, podem gerar imagens prevendo patches de uma imagem sequencialmente, alguns pixels por vez. Eles não podem voltar e corrigir seus erros, mas o processo de previsão seqüencial é muito mais rápido que a difusão.
Esses modelos usam representações conhecidas como tokens para fazer previsões. Um modelo autoregressivo utiliza um autoencoder para comprimir pixels de imagem bruta em tokens discretos e reconstruir a imagem a partir de tokens previstos. Embora isso aumente a velocidade do modelo, a perda de informações que ocorre durante a compactação causa erros quando o modelo gera uma nova imagem.
Com o Hart, os pesquisadores desenvolveram uma abordagem híbrida que usa um modelo autoregressivo para prever tokens de imagem discretos e comprimidos, depois um pequeno modelo de difusão para prever tokens residuais. Os tokens residuais compensam a perda de informações do modelo, capturando detalhes deixados de fora por tokens discretos.
“Podemos obter um grande impulso em termos de qualidade de reconstrução. Nossos tokens residuais aprendem detalhes de alta frequência, como bordas de um objeto ou o cabelo, os olhos ou a boca de uma pessoa. Estes são lugares onde os tokens discretos podem cometer erros”, diz Tang.
Como o modelo de difusão prevê apenas os detalhes restantes depois que o modelo autoregressivo fez seu trabalho, ele pode realizar a tarefa em oito etapas, em vez do ordinary 30 ou mais um modelo de difusão padrão, é necessário gerar uma imagem inteira. Essa sobrecarga mínima do modelo de difusão adicional permite que a Hart mantenha a vantagem de velocidade do modelo autoregressivo, aumentando significativamente sua capacidade de gerar detalhes complexos da imagem.
“O modelo de difusão tem um trabalho mais fácil de fazer, o que leva a mais eficiência”, acrescenta ele.
Superando modelos maiores
Durante o desenvolvimento de Hart, os pesquisadores encontraram desafios na integração efetivamente do modelo de difusão para aprimorar o modelo autoregressivo. Eles descobriram que a incorporação do modelo de difusão nos estágios iniciais do processo autoregressivo resultou em um acúmulo de erros. Em vez disso, seu design closing de aplicar o modelo de difusão para prever apenas tokens residuais, pois a etapa closing melhorou significativamente a qualidade da geração.
Seu método, que usa uma combinação de um modelo de transformador autoregressivo com 700 milhões de parâmetros e um modelo de difusão leve com 37 milhões de parâmetros, pode gerar imagens da mesma qualidade que as criadas por um modelo de difusão com 2 bilhões de parâmetros, mas o faz cerca de nove vezes mais rápido. Ele usa cerca de 31 % menos computação do que os modelos de última geração.
Além disso, porque Hart usa um modelo autoregressivo para fazer a maior parte do trabalho-o mesmo tipo de modelo que alimenta o LLMS-é mais compatível para integração com a nova classe de modelos generativos unificados em linguagem de visão. No futuro, pode-se interagir com um modelo generativo unificado da linguagem da visão, talvez pedindo para mostrar as etapas intermediárias necessárias para montar uma peça de mobiliário.
“Os LLMs são uma boa interface para todos os tipos de modelos, como modelos e modelos multimodais que podem raciocinar. Essa é uma maneira de levar a inteligência a uma nova fronteira. Um modelo eficiente de geração de imagem desbloquearia muitas possibilidades”, diz ele.
No futuro, os pesquisadores querem seguir esse caminho e criar modelos de linguagem da visão no topo da arquitetura Hart. Como o Hart é escalável e generalizável para várias modalidades, eles também desejam aplicá -lo a geração de vídeo e tarefas de previsão de áudio.
Esta pesquisa foi financiada, em parte, pelo MIT-IBM Watson AI Lab, The MIT e Amazon Science Hub, The MIT AI {Hardware} Program e da Fundação Nacional de Ciência dos EUA. A infraestrutura da GPU para o treinamento deste modelo foi doada pela NVIDIA.