O modelo híbrido de IA cria vídeos suaves e de alta qualidade em segundos | MIT Information


Como seria um dos bastidores dos bastidores de um vídeo gerado por um modelo de inteligência synthetic? Você pode pensar que o processo é semelhante à animação de stop-motion, onde muitas imagens são criadas e costuradas, mas esse não é exatamente o caso de “modelos de difusão” como o Sora 2 do Openal e o Google.

Em vez de produzir um vídeo-quadro a quadro (ou “autoregressivamente”), esses sistemas processam toda a sequência de uma só vez. O clipe resultante geralmente é fotorrealista, mas o processo é lento e não permite alterações na voação.

Cientistas do Laboratório de Ciência da Computação e Inteligência Synthetic do MIT (CSAIL) e da Adobe Analysis agora desenvolveram uma abordagem híbrida, chamada “Causvid”, para criar vídeos em segundos. Assim como um aluno de espírito rápido que aprende com um professor bem versado, um modelo de difusão de sequência whole treina um sistema autoregressivo para prever rapidamente o próximo quadro, garantindo alta qualidade e consistência. O modelo de estudante de Causvid pode então gerar clipes de um immediate de texto simples, transformando uma foto em uma cena em movimento, estendendo um vídeo ou alterando suas criações com novas entradas no meio da geração.

Essa ferramenta dinâmica permite a criação de conteúdo rápida e interativa, cortando um processo de 50 etapas em apenas algumas ações. Ele pode criar muitas cenas imaginativas e artísticas, como um avião de papel se transformando em um cisne, mamutes de lã se aventurando através da neve ou uma criança pulando em uma poça. Os usuários também podem fazer um immediate inicial, como “gerar um homem atravessar a rua” e depois fazer entradas de acompanhamento para adicionar novos elementos à cena, como “ele escreve em seu caderno quando chegar à calçada oposta”.

O modelo híbrido de IA cria vídeos suaves e de alta qualidade em segundos | MIT Information

Um vídeo produzido pela CausVid ilustra sua capacidade de criar conteúdo suave e de alta qualidade.

Animação gerada pela IA, cortesia dos pesquisadores.

Os pesquisadores da CSAIL dizem que o modelo pode ser usado para diferentes tarefas de edição de vídeo, como ajudar os espectadores a entender uma transmissão ao vivo em um idioma diferente, gerando um vídeo que sincroniza com uma tradução de áudio. Também poderia ajudar a renderizar novos conteúdos em um videogame ou produzir rapidamente simulações de treinamento para ensinar aos robôs novas tarefas.

Tianwei Yin SM ’25, PhD ’25, um aluno recentemente formado em engenharia elétrica e ciência da computação e afiliada da CSAIL, atribui a força do modelo à sua abordagem mista.

“O CausVid combina um modelo baseado em difusão pré-treinado com arquitetura autoregressiva que normalmente é encontrada nos modelos de geração de texto”, diz Yin, co-líder de um novo papel sobre a ferramenta. “Este modelo de professores movidos a IA pode imaginar etapas futuras para treinar um sistema de quadro a quadro para evitar cometer erros de renderização”.

O co-líder de Yin, Qiang Zhang, é um cientista de pesquisa da Xai e ex-pesquisador visitante da CSAIL. Eles trabalharam no projeto com os cientistas da Adobe Analysis Richard Zhang, Eli Shechtman e Xun Huang, e dois investigadores principais da CSAIL: os professores do MIT Invoice Freeman e Frédo Durand.

Caus (vídeo) e efeito

Muitos modelos autoregressivos podem criar um vídeo inicialmente suave, mas a qualidade tende a cair mais tarde na sequência. Um clipe de uma pessoa em execução pode parecer realista no começo, mas suas pernas começam a se agitar em direções não naturais, indicando inconsistências quadros a quadros (também chamado de “acúmulo de erros”).

A geração de vídeo propensa a erros period comum em abordagens causais anteriores, que aprenderam a prever os quadros um por um por conta própria. O CaatVid usa um modelo de difusão de alta potência para ensinar a um sistema mais simples sua experiência em vídeo geral, permitindo criar visuais suaves, mas muito mais rápido.

Miniatura de vídeo

Reproduzir vídeo

O Causa permite a criação de vídeo rápida e interativa, cortando um processo de 50 etapas em apenas algumas ações.
Cortei em vídeo dos pesquisadores.

A Causvid exibiu sua aptidão para fabricação de vídeo quando os pesquisadores testaram sua capacidade de fazer vídeos de alta resolução e 10 segundos. Ele superou linhas de base como “OpenSora” e “Moviegen”Trabalhando até 100 vezes mais rápido que sua concorrência enquanto produz os clipes mais estáveis ​​e de alta qualidade.

Então, Yin e seus colegas testaram a capacidade da Causvid de lançar vídeos estáveis ​​de 30 segundos, onde também liderou os modelos comparáveis ​​sobre qualidade e consistência. Esses resultados indicam que o causVid pode eventualmente produzir vídeos estáveis ​​e de horas ou mesmo uma duração indefinida.

Um estudo subsequente revelou que os usuários preferiram os vídeos gerados pelo Modelo de Estudantes da Causvid sobre seu professor baseado em difusão.

“A velocidade do modelo autoregressivo realmente faz a diferença”, diz Yin. “Seus vídeos parecem tão bons quanto os professores, mas com menos tempo para produzir, a troca é que seus visuais são menos diversos”.

O Causvid também se destacou quando testado em mais de 900 avisos usando um conjunto de dados de texto para vídeo, recebendo a pontuação geral superior de 84,27. Ele ostentava as melhores métricas em categorias como qualidade de imagem e ações humanas realistas, eclipsando modelos de geração de vídeo de última geração como “Vchitect” e “Gen-3.

Enquanto um passo eficiente avançando na geração de vídeos da IA, o Causvid poderá em breve projetar visuais ainda mais rapidamente – talvez instantaneamente – com uma arquitetura causal menor. Yin diz que, se o modelo for treinado em conjuntos de dados específicos de domínio, provavelmente criará clipes de maior qualidade para robótica e jogos.

Especialistas dizem que esse sistema híbrido é uma atualização promissora dos modelos de difusão, que atualmente estão atolados através das velocidades de processamento. “(Os modelos de difusão) são muito mais lentos que o LLMS (grandes modelos de idiomas) ou modelos de imagens generativos”, diz o professor assistente da Universidade Carnegie Mellon, Jun-Yan Zhu, que não estava envolvido no jornal. “Esse novo trabalho muda que, tornando a geração de vídeo muito mais eficiente. Isso significa melhor velocidade de streaming, aplicativos mais interativos e pegadas de carbono mais baixas”.

O trabalho da equipe foi apoiado, em parte, pelo Amazon Science Hub, pelo Instituto Gwangju de Ciência e Tecnologia, Adobe, Google, Laboratório de Pesquisa da Força Aérea dos EUA e acelerador de inteligência synthetic da Força Aérea dos EUA. O Causvid será apresentado na conferência sobre visão computacional e reconhecimento de padrões em junho.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *