A IA aprende como a visão e o som estão conectados, sem intervenção humana | MIT Information



A IA aprende como a visão e o som estão conectados, sem intervenção humana | MIT Information

Os seres humanos naturalmente aprendem fazendo conexões entre visão e som. Por exemplo, podemos assistir alguém tocando o violoncelo e reconhecer que os movimentos do violoncelista estão gerando a música que ouvimos.

Uma nova abordagem desenvolvida por pesquisadores do MIT e de outros lugares melhora a capacidade de um modelo de IA de aprender dessa mesma maneira. Isso pode ser útil em aplicativos como jornalismo e produção de filmes, onde o modelo pode ajudar na curadora de conteúdo multimodal por meio de vídeo automático e recuperação de áudio.

A longo prazo, este trabalho pode ser usado para melhorar a capacidade de um robô de entender ambientes do mundo actual, onde as informações auditivas e visuais geralmente estão intimamente conectadas.

Melhorando o trabalho anterior de seu grupo, os pesquisadores criaram um método que ajuda os modelos de aprendizado de máquina a alinhar dados de áudio e visible correspondentes de videoclipes sem a necessidade de rótulos humanos.

Eles ajustaram como o modelo authentic é treinado para aprender uma correspondência de granulação mais fina entre um quadro de vídeo específico e o áudio que ocorre naquele momento. Os pesquisadores também fizeram alguns ajustes arquitetônicos que ajudam o sistema a equilibrar dois objetivos distintos de aprendizado, o que melhora o desempenho.

Tomados em conjunto, essas melhorias relativamente simples aumentam a precisão de sua abordagem nas tarefas de recuperação de vídeo e na classificação da ação em cenas audiovisuais. Por exemplo, o novo método pode corresponder automaticamente e precisamente ao som de uma porta batendo com o visible de fechamento em um videoclipe.

“We’re constructing AI techniques that may course of the world like people do, when it comes to having each audio and visible data coming in directly and with the ability to seamlessly course of each modalities. Trying ahead, if we are able to combine this audio-visual know-how into a few of the instruments we use each day, like massive language fashions, it may open up a variety of new purposes,” says Andrew Rouditchenko, an MIT graduate scholar and co-author of a Artigo sobre esta pesquisa.

Ele se junta ao jornal pelo autor principal Edson Araujo, um estudante de graduação da Goethe College, na Alemanha; Yuan Gong, um ex -MIT Postdoc; Saurabhchand Bhati, um PostDoc atual do MIT; Samuel Thomas, Brian Kingsbury e Leonid Karlinsky, da IBM Analysis; Rogerio Feris, cientista e gerente do MIT-IBM Watson AI Lab; James Glass, cientista sênior de pesquisa e chefe do grupo de sistemas de idiomas falado no MIT Ciência da Computação e Laboratório de Inteligência Synthetic (CSAIL); e o autor sênior Hilde Kuehne, professor de ciência da computação da Goethe College e professor afiliado no MIT-IBM Watson AI Lab. O trabalho será apresentado na conferência sobre visão computacional e reconhecimento de padrões.

Sincronizando

Este trabalho se baseia em um método de aprendizado de máquina Os pesquisadores se desenvolveram Alguns anos atrás, o que forneceu uma maneira eficiente de treinar um modelo multimodal para processar dados visuais de áudio e áudio sem a necessidade de rótulos humanos.

Os pesquisadores alimentam esse modelo, chamado Cav-Mae, videoclipes não marcados e codifica os dados visuais e de áudio separadamente em representações chamadas tokens. Usando o áudio pure da gravação, o modelo aprende automaticamente a mapear pares correspondentes de tokens de áudio e visible, juntos dentro de seu espaço de representação interna.

Eles descobriram que o uso de dois objetivos de aprendizado equilibra o processo de aprendizado do modelo, o que permite que o Cav-Mae compreenda os dados de áudio e visible correspondentes, melhorando sua capacidade de recuperar clipes de vídeo que correspondem às consultas do usuário.

Mas o Cav-Mae trata as amostras de áudio e visible como uma unidade, portanto, um videoclipe de 10 segundos e o som de uma porta batendo são mapeados juntos, mesmo que esse evento de áudio aconteça em apenas um segundo do vídeo.

Em seu modelo aprimorado, chamado Cav-Mae Sync, os pesquisadores dividem o áudio em janelas menores antes que o modelo calcule suas representações dos dados, para que gerem representações separadas que correspondam a cada janela menor de áudio.

Durante o treinamento, o modelo aprende a associar um quadro de vídeo ao áudio que ocorre durante exatamente esse quadro.

“Ao fazer isso, o modelo aprende uma correspondência de granulação mais fina, que ajuda no desempenho mais tarde quando agregamos essas informações”, diz Araujo.

Eles também incorporaram melhorias arquitetônicas que ajudam o modelo a equilibrar seus dois objetivos de aprendizado.

Adicionando “sala de manobra”

O modelo incorpora um objetivo contrastante, onde aprende a associar dados de áudio e visible semelhantes e um objetivo de reconstrução que visa recuperar dados específicos de áudio e visible com base nas consultas do usuário.

Na sincronização do Cav-mae, os pesquisadores introduziram dois novos tipos de representações de dados ou tokens para melhorar a capacidade de aprendizado do modelo.

Eles incluem “tokens globais” dedicados que ajudam com o objetivo contrastante de “tokens de registro” dedicado que ajudam o modelo a se concentrar em detalhes importantes para o objetivo de reconstrução.

“Essencialmente, adicionamos um pouco mais de espaço de manobra ao modelo para que ele possa executar cada uma dessas duas tarefas, contrastiva e reconstrutiva, um pouco mais de forma independente. Isso beneficiou o desempenho geral”, acrescenta Araujo.

Embora os pesquisadores tivessem alguma intuição, esses aprimoramentos melhorariam o desempenho da sincronização de Cav-mae, foi necessária uma combinação cuidadosa de estratégias para mudar o modelo na direção em que eles queriam que ele fosse.

“Como temos várias modalidades, precisamos de um bom modelo para ambas as modalidades por si mesmas, mas também precisamos fazê -los se fundir e colaborar”, diz Rouditchenko.

No closing, seus aprimoramentos melhoraram a capacidade do modelo de recuperar vídeos com base em uma consulta de áudio e prever a classe de uma cena audiovisual, como um cachorro latindo ou um instrumento.

Seus resultados foram mais precisos do que o trabalho anterior e também tiveram um desempenho melhor do que os métodos mais complexos e de última geração que exigem maiores quantidades de dados de treinamento.

“Às vezes, idéias muito simples ou pequenos padrões que você vê nos dados têm grande valor quando aplicados em cima de um modelo em que você está trabalhando”, diz Araujo.

No futuro, os pesquisadores desejam incorporar novos modelos que geram melhores representações de dados na sincronização do CAV-MAE, o que poderia melhorar o desempenho. Eles também desejam permitir que seu sistema lide com dados de texto, o que seria um passo importante para gerar um modelo de linguagem grande audiovisual.

Este trabalho é financiado, em parte, pelo Ministério Federal de Educação e Pesquisa Alemão e pelo MIT-IBM Watson AI Lab.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *