Assumindo o problema de eficiência de texto para vídeo



Assumindo o problema de eficiência de texto para vídeo

Suas aplicações práticas nem sempre são totalmente claras, mas as ferramentas de inteligência synthetic generativa (AI) estão aumentando de popularidade da mesma forma. Uma das mais populares dessas ferramentas é o gerador de texto para vídeo (T2V). Com apenas uma descrição textual curta do que você gostaria de ver, esses algoritmos podem servir uma ajuda da IA ​​Slop para preencher todos os websites de hospedagem de vídeo e mídia social com lixo que desejará não ser vê.

Ou pelo menos foi assim que começou, mas não como está indo. Essas ferramentas amadureceram além do ponto de criar pessoas com dedos e pernas extras e movimentos não naturais, e agora muitos deles produzem resultados muito convincentes. E com esse novo realismo, é fácil ver como esses modelos T2V podem ser usados ​​para produzir um curta-metragem com um orçamento apertado ou criar uma campanha publicitária de alta qualidade sem uma agência de alto preço em Nova York. Para pequenas empresas e indivíduos, isso pode quebrar inúmeras barreiras de longa knowledge.

Mas nem tudo é rosas e sol no mundo de Genai, meus amigos. Sempre que você começa a falar sobre vídeo e IA na mesma frase, você pode contar com os custos de computação e energia enormes. Portanto, essas ferramentas podem ser fáceis de usar, mas os altos custos ainda encontram uma maneira de se esgueirar. Em um esforço para combater esse problema, um par de pesquisadores em abraçar o rosto se aprofundou nos modelos T2V existentes. Seu objetivo period encontrar os aspectos mais intensivos de computação desses algoritmos para Dê insights aos pesquisadores Em como as ferramentas futuras podem ser mais eficientes – e mais acessíveis.

O estudo analisa de perto vários sistemas T2V de última geração e de código aberto, analisando quanto tempo eles levam para renderizar videoclipes e quanta energia eles consomem no processo. Os pesquisadores construíram primeiro um modelo teórico para prever como o desempenho deve escalar com três fatores principais: a resolução do vídeo, seu comprimento e o número de etapas de denoising (o processo repetido de refinamento que fornece aos modelos baseados em difusão seu realismo). Em seguida, eles testaram essas previsões no WAN2.1-T2V, um dos sistemas de texto para vice-video mais populares disponíveis.

O que eles descobriram foi que o tempo e a energia necessários para produzir um videoclipe crescem quadraticamente com resolução e duração espacial. Isso significa que dobrar a resolução ou número de quadros torna o processo aproximadamente quatro vezes mais caro. Enquanto isso, o número de etapas de denoising escala linearmente; portanto, pela metade o número de etapas reduz a energia e o tempo exigidos quase pela metade.

A equipe estendeu sua análise além do WAN2.1-T2V, benchmarking seis principais modelos T2V de código aberto, incluindo Animatediff, CogVideox, Mochi-1 e LTX-Video. Em geral, eles encontraram tendências semelhantes. A maioria dos sistemas é ligada à computação, o que significa que o desempenho é limitado não pela memória ou largura de banda, mas pela potência aritmética bruta da GPU.

Os pesquisadores usaram a poderosa GPU H100 da NVIDIA para testes, mas descobriram que alcançaram apenas cerca de 45% do desempenho máximo teórico. Devido a fatores como desalinhamento de ladrilhos, despesas gerais do kernel e operações ligadas à memória, o desempenho máximo nunca é alcançado na prática. Esses fatores servem apenas para piorar o problema dos algoritmos ligados a computação.

Os modelos de difusão de vídeo já são centenas ou milhares de vezes mais exigentes computacionalmente do que a geração de texto ou imagem, e seu apetite por energia só crescerá à medida que os usuários exigem clipes de maior e maior resolução. Isso significa que trabalhos futuros nessa área devem se concentrar não apenas na fidelidade visible, mas na sustentabilidade. A equipe sugere que os pesquisadores recorrem a técnicas como quantização, cache de difusão e otimização de atenção, o que pode reduzir custos em 20 a 60% sem prejudicar a qualidade.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *