Quem não desejou que eles tivessem sua própria música tema uma vez ou outra? Qualquer pessoa pode tirar uma música que foi escrita com alguém ou algo mais em mente e reivindicá -la como sua, mas isso não é o mesmo que ter música que captura distintamente a própria personalidade única. Agora, todos nós podemos ter nossa própria música tema personalizada e praticamente qualquer outro áudio que possamos desejar, graças a um novo tipo de modelo de aprendizado de máquina chamado Audiox.
Audiox é chamado de um Ferramenta de geração de qualquer coisa para áudio Por seus desenvolvedores, porque pode levar uma ampla gama de entradas e produzir som ou música que corresponde a eles. Construído por uma equipe de engenheiros da Universidade de Ciência e Tecnologia de Hong Kong, esse modelo pode aceitar qualquer coisa, desde instruções de texto até vídeos, imagens, música e gravações de áudio como entradas. Dadas qualquer uma dessas entradas, ou alguma combinação deles, a Audiox é capaz de produzir som ou música apropriada, conceitualmente e temporalmente.
Uma visão geral dos recursos do sistema (📷: Z. Tian et al.)
O Audiox conta com o uso de um modelo de difusão e transformadores, que são acessórios comuns em muitos algoritmos modernos de inteligência synthetic generativa (AI). O modelo desmonta progressivamente os dados de entrada enquanto aprende seus padrões, permitindo gerar saídas de áudio de alta qualidade que são realistas e conscientes do contexto.
Isso foi possível com um novo método de treinamento conhecido como mascaramento multimodal. Durante o treinamento, o modelo foi alimentado com entradas com peças estrategicamente removidas – como clipes de áudio ausentes, regiões de imagem embaçada ou palavras excluídas – e ensinado a preencher os espaços em branco usando pistas dos dados restantes. Isso forçou o modelo a aprender relações mais profundas entre diferentes tipos de informações e criar representações cruzadas robustas.
Para apoiar o treinamento, os pesquisadores desenvolveram dois grandes conjuntos de dados: VGGSound-Caps, que inclui 190.000 pares de capas de áudio e caps V2M, um enorme conjunto de dados contendo mais de 6 milhões de legendas musicais. Esses recursos deram à Audiox uma base muito grande de dados multimodais para aprender e contribuiu significativamente para seu desempenho.
A arquitetura do Audiox (📷: Z. Tian et al.)
A equipe mostrou que o Audiox pode lidar com uma ampla gama de tarefas, incluindo texto para áudio, vídeo a áudio, conclusão da música e até mesmo em pintura de áudio-restaurando seções ausentes ou corrompidas de uma trilha sonora. O modelo foi testado extensivamente e superou muitos sistemas existentes de tarefas únicas. E, diferentemente da maioria das outras ferramentas de IA, o Audiox opera como um modelo único e unificado, em vez de um pacote de modelos especializados menores que são costurados.
Olhando para o futuro, os pesquisadores planejam estender as capacidades da Audiox para gerar áudio mais longo e incorporar preferências estéticas com o auxílio do aprendizado de reforço. Isso permitiria que o modelo alinhasse melhor suas saídas com o sabor e a criatividade humano.
Ao preencher a lacuna entre entradas visuais, textuais e auditivas, o Audiox permite formas totalmente novas de expressão artística. Seja você um cineasta, músico, jogador ou criador de conteúdo cotidiano, o Audiox coloca o poder da geração de áudio de nível profissional na ponta dos dedos.