Ai que gera som de qualquer coisa



Ai que gera som de qualquer coisa

Quem não desejou que eles tivessem sua própria música tema uma vez ou outra? Qualquer pessoa pode tirar uma música que foi escrita com alguém ou algo mais em mente e reivindicá -la como sua, mas isso não é o mesmo que ter música que captura distintamente a própria personalidade única. Agora, todos nós podemos ter nossa própria música tema personalizada e praticamente qualquer outro áudio que possamos desejar, graças a um novo tipo de modelo de aprendizado de máquina chamado Audiox.

Audiox é chamado de um Ferramenta de geração de qualquer coisa para áudio Por seus desenvolvedores, porque pode levar uma ampla gama de entradas e produzir som ou música que corresponde a eles. Construído por uma equipe de engenheiros da Universidade de Ciência e Tecnologia de Hong Kong, esse modelo pode aceitar qualquer coisa, desde instruções de texto até vídeos, imagens, música e gravações de áudio como entradas. Dadas qualquer uma dessas entradas, ou alguma combinação deles, a Audiox é capaz de produzir som ou música apropriada, conceitualmente e temporalmente.

O Audiox conta com o uso de um modelo de difusão e transformadores, que são acessórios comuns em muitos algoritmos modernos de inteligência synthetic generativa (AI). O modelo desmonta progressivamente os dados de entrada enquanto aprende seus padrões, permitindo gerar saídas de áudio de alta qualidade que são realistas e conscientes do contexto.

Isso foi possível com um novo método de treinamento conhecido como mascaramento multimodal. Durante o treinamento, o modelo foi alimentado com entradas com peças estrategicamente removidas – como clipes de áudio ausentes, regiões de imagem embaçada ou palavras excluídas – e ensinado a preencher os espaços em branco usando pistas dos dados restantes. Isso forçou o modelo a aprender relações mais profundas entre diferentes tipos de informações e criar representações cruzadas robustas.

Para apoiar o treinamento, os pesquisadores desenvolveram dois grandes conjuntos de dados: VGGSound-Caps, que inclui 190.000 pares de capas de áudio e caps V2M, um enorme conjunto de dados contendo mais de 6 milhões de legendas musicais. Esses recursos deram à Audiox uma base muito grande de dados multimodais para aprender e contribuiu significativamente para seu desempenho.

A equipe mostrou que o Audiox pode lidar com uma ampla gama de tarefas, incluindo texto para áudio, vídeo a áudio, conclusão da música e até mesmo em pintura de áudio-restaurando seções ausentes ou corrompidas de uma trilha sonora. O modelo foi testado extensivamente e superou muitos sistemas existentes de tarefas únicas. E, diferentemente da maioria das outras ferramentas de IA, o Audiox opera como um modelo único e unificado, em vez de um pacote de modelos especializados menores que são costurados.

Olhando para o futuro, os pesquisadores planejam estender as capacidades da Audiox para gerar áudio mais longo e incorporar preferências estéticas com o auxílio do aprendizado de reforço. Isso permitiria que o modelo alinhasse melhor suas saídas com o sabor e a criatividade humano.

Ao preencher a lacuna entre entradas visuais, textuais e auditivas, o Audiox permite formas totalmente novas de expressão artística. Seja você um cineasta, músico, jogador ou criador de conteúdo cotidiano, o Audiox coloca o poder da geração de áudio de nível profissional na ponta dos dedos.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *