Ai que gera som de qualquer coisa -itstec.com.br. All rights reserved.

Quem não desejou que eles tivessem sua própria música tema uma vez ou outra? Qualquer pessoa pode tirar uma música que foi escrita com alguém ou algo mais em mente e reivindicá -la como sua, mas isso não é o mesmo que ter música que captura distintamente a própria personalidade única. Agora, todos nós podemos ter nossa própria música tema personalizada e praticamente qualquer outro áudio que possamos desejar, graças a um novo tipo de modelo de aprendizado de máquina chamado Audiox.

Audiox é chamado de um Ferramenta de geração de qualquer coisa para áudio Por seus desenvolvedores, porque pode levar uma ampla gama de entradas e produzir som ou música que corresponde a eles. Construído por uma equipe de engenheiros da Universidade de Ciência e Tecnologia de Hong Kong, esse modelo pode aceitar qualquer coisa, desde instruções de texto até vídeos, imagens, música e gravações de áudio como entradas. Dadas qualquer uma dessas entradas, ou alguma combinação deles, a Audiox é capaz de produzir som ou música apropriada, conceitualmente e temporalmente.

Uma visão geral dos recursos do sistema (📷: Z. Tian et al.)

O Audiox conta com o uso de um modelo de difusão e transformadores, que são acessórios comuns em muitos algoritmos modernos de inteligência synthetic generativa (AI). O modelo desmonta progressivamente os dados de entrada enquanto aprende seus padrões, permitindo gerar saídas de áudio de alta qualidade que são realistas e conscientes do contexto.

Isso foi possível com um novo método de treinamento conhecido como mascaramento multimodal. Durante o treinamento, o modelo foi alimentado com entradas com peças estrategicamente removidas – como clipes de áudio ausentes, regiões de imagem embaçada ou palavras excluídas – e ensinado a preencher os espaços em branco usando pistas dos dados restantes. Isso forçou o modelo a aprender relações mais profundas entre diferentes tipos de informações e criar representações cruzadas robustas.

Para apoiar o treinamento, os pesquisadores desenvolveram dois grandes conjuntos de dados: VGGSound-Caps, que inclui 190.000 pares de capas de áudio e caps V2M, um enorme conjunto de dados contendo mais de 6 milhões de legendas musicais. Esses recursos deram à Audiox uma base muito grande de dados multimodais para aprender e contribuiu significativamente para seu desempenho.

A arquitetura do Audiox (📷: Z. Tian et al.)

A equipe mostrou que o Audiox pode lidar com uma ampla gama de tarefas, incluindo texto para áudio, vídeo a áudio, conclusão da música e até mesmo em pintura de áudio-restaurando seções ausentes ou corrompidas de uma trilha sonora. O modelo foi testado extensivamente e superou muitos sistemas existentes de tarefas únicas. E, diferentemente da maioria das outras ferramentas de IA, o Audiox opera como um modelo único e unificado, em vez de um pacote de modelos especializados menores que são costurados.

Olhando para o futuro, os pesquisadores planejam estender as capacidades da Audiox para gerar áudio mais longo e incorporar preferências estéticas com o auxílio do aprendizado de reforço. Isso permitiria que o modelo alinhasse melhor suas saídas com o sabor e a criatividade humano.

Ao preencher a lacuna entre entradas visuais, textuais e auditivas, o Audiox permite formas totalmente novas de expressão artística. Seja você um cineasta, músico, jogador ou criador de conteúdo cotidiano, o Audiox coloca o poder da geração de áudio de nível profissional na ponta dos dedos.

Ai que gera som de qualquer coisa

Deixe um comentário Cancelar resposta

15% de desconto, Amazon e um novo simulador de voo

Vector da Quantum Programs é reconhecido pelas Forças Armadas Ucranianas com o prêmio “Exército de Drones 2025” – sUAS Information

ATLAS estreita a busca pela matéria escura – Physics World

Nova terapia usa química tumoral para desencadear a morte de células cancerígenas

A ‘sopa primordial’ do universo infantil period na verdade uma sopa

A vida secreta do TiO₂ nas espumas – Physics World

Travessia do Atlântico – momento crítico para cabos submarinos na period da IA

TalkTalk em busca de compradores para PXC e unidades consumidoras

Por que seus próximos microsserviços devem ser baseados em streaming baseados em SQL

Agentes pessoais de IA como Moltbot são um pesadelo de segurança

Produção microfluídica dos EUA impulsionada pela impressão 3D na parceria Intrepid Automation-Speedy Fluidics

7 considerações importantes antes de implantar a IA Agentic em produção