Você pode ter certeza de que um problema foi quase completamente resolvido quando os pesquisadores começam a trabalhar em questões da sua periferia. É o que tem acontecido nas áreas de reconhecimento automático e síntese de fala nos últimos anos, onde os avanços na inteligência synthetic (IA) quase aperfeiçoaram essas ferramentas. A próxima fronteira, de acordo com uma equipe do CSAIL do MIT, é imitar sons, da mesma forma que os humanos copiam o canto de um pássaro ou o latido de um cachorro.
Imitar sons com a voz é uma forma intuitiva e prática de transmitir ideias quando as palavras ficam aquém. Esta prática, comparável a esboçar uma imagem rápida para ilustrar um conceito, utiliza o trato vocal para imitar sons que desafiam a explicação. Inspirados por esta habilidade pure, os pesquisadores criaram um sistema de IA que pode produzir imitações vocais semelhantes às humanas, sem treinamento prévio ou exposição a impressões vocais humanas.
Um esquema do modelo do trato vocal (📷: M. Caren et al.)
Isto pode parecer um tema tolo ou sem importância para abordar à primeira vista, mas quanto mais se considera, mais claro se torna o poder da imitação sonora. Se tudo sob o capô do seu carro é um mistério para você, como explicar um problema a um mecânico pelo telefone? Palavras não ajudam quando você não sabe quais palavras usar, mas uma série de estrondos, estrondos e cliques pode dizer muito a um mecânico. E se quisermos ter conversas semelhantes com ferramentas de IA no futuro, eles precisarão entender como imitar e interpretar esses tipos de reproduções sonoras imperfeitas que fazemos.
O sistema desenvolvido pela equipe funciona modelando o trato vocal humano, simulando como a caixa vocal, a garganta, a língua e os lábios moldam os sons. Um algoritmo de IA inspirado na ciência cognitiva controla este modelo, produzindo imitações que refletem a forma como os humanos adaptam os sons para comunicação. A IA pode replicar diversos sons do mundo actual, desde o farfalhar das folhas até a sirene de uma ambulância, e pode até trabalhar ao contrário – interpretando imitações vocais humanas para identificar os sons originais, como distinguir entre o miado e o silvo de um gato.
Para atingir esse objetivo, os pesquisadores desenvolveram três versões progressivamente avançadas do modelo. O primeiro tinha como objetivo replicar sons do mundo actual, mas não se alinhava bem com o comportamento humano. O segundo modelo, “comunicativo”, concentrava-se nas características distintivas dos sons, priorizando características que os ouvintes considerariam mais reconhecíveis, como imitar o barulho de um barco a motor em vez de respingos de água. A terceira versão adicionou uma camada de raciocínio baseado no esforço, evitando sons excessivamente rápidos, altos ou extremos, resultando em imitações mais humanas que refletiam de perto a tomada de decisão humana durante a mímica vocal.
Uma série de experiências revelou que os juízes humanos favoreceram as imitações geradas pela IA em muitos casos, sendo os sons artificiais preferidos por até 75% dos participantes. Dado este sucesso, os investigadores esperam que o modelo possa permitir que futuros designers de som, músicos e cineastas interajam com sistemas computacionais de formas criativas, como pesquisar bases de dados sonoras através da imitação vocal. Também pode aprofundar a compreensão do desenvolvimento da linguagem, dos comportamentos de imitação em animais e de como os humanos abstraem os sons.
No entanto, o modelo atual tem limitações. Ele luta com certas consoantes como “z” e ainda não consegue replicar a fala, a música ou imitações culturalmente específicas. Mas, apesar destes desafios, este trabalho é um passo importante para a compreensão de como os factores físicos e sociais moldam as imitações vocais e a evolução da linguagem. Poderia lançar as bases para aplicações práticas e insights mais profundos sobre a comunicação humana.