E não havia como prever o quão actual a voz resultante seria – muitas vezes acabou soando bastante synthetic. “Pode parecer um pouco como eles, mas certamente não poderia ser confuso para eles”, diz ele. Desde então, a tecnologia melhorou e, no último ano ou dois com os quais as pessoas que a Cave trabalhou só precisavam passar cerca de meia hora gravando suas vozes. Mas, embora o processo tenha sido mais rápido, ele diz, a voz sintética resultante não period mais realista.
Então veio os clones de voz. A Elevenlabs vem desenvolvendo vozes geradas pela IA para uso em filmes, televisões e podcasts desde que foi fundada há três anos, diz Sophia Noel, que supervisiona as parcerias entre a empresa e as organizações sem fins lucrativos. O objetivo unique da empresa period melhorar a dublagem, fazer com que as narcas em um novo idioma pareçam mais naturais e menos óbvias. Mas então o líder técnico da Voice Bridging, uma organização que trabalha para ajudar as pessoas com ALS a se comunicar, disse a Elevenlabs que seus clones de voz eram úteis para esse grupo, diz Noel. Em agosto passado, o Elevenlabs foi lançado um programa para disponibilizar a tecnologia livremente para pessoas com dificuldades de fala.
De repente, tornou -se muito mais rápido e mais fácil criar um clone de voz, diz Cave. Em vez de ter que gravar frases, os usuários podem enviar gravações de voz a partir de mensagens de voz do WhatsApp anteriores ou vídeos de casamento, por exemplo. “Você precisa de um mínimo de um minuto para fazer qualquer coisa, mas, idealmente, deseja cerca de 30 minutos”, diz Noel. “Você o envia para o Elevenlabs. Demora cerca de uma semana e depois sai com essa voz. ”
Rodriguez me interpretou uma declaração usando sua voz bancária e seu clone de voz. A diferença period acentuada: a voz de banco period claramente antinatural, mas o clone de voz parecia uma pessoa. Não period totalmente pure – as palavras vieram um pouco rápidas e a qualidade emotiva estava um pouco faltando. Mas foi uma grande melhoria. A diferença entre os dois é, como Fernandez coloca, “como noite e dia”.
Os ums e ers
Cave começou a apresentar a tecnologia para pessoas com MND há alguns meses. Desde então, 130 deles começaram a usá -lo, “e o suggestions tem sido incorretamente bom”, diz ele. Os clones de voz soam muito mais realistas do que os resultados do banco de voz. “Eles (incluem) pausas para a respiração, os UMs, os ERs e, às vezes, há gaguadores”, diz Cave, que ele próprio tem uma gaguejada sutil. “Isso é muito actual para mim, porque na verdade eu prefiro ter uma voz sintética que me representava que gaguejou, porque isso é apenas quem eu sou.”
Joyce Esser é uma das 130 pessoas que a Cave introduziu a clonagem de voz. Esser, que tem 65 anos e vive em Southend-on-Sea, no Reino Unido, foi diagnosticado com MND bulbar em maio do ano passado.
O bulbar MND é uma forma da doença que primeiro afeta os músculos na face, na garganta e na boca, o que pode dificultar a fala e a engolir. Esser ainda pode falar, mas lentamente e com dificuldade. Ela é uma pessoa faladora, mas diz que seu discurso se deteriorou “muito rapidamente” desde janeiro. Nós nos comunicamos através de uma combinação de e-mail, videochamada, falar, uma placa de redação e ferramentas de texto em fala. “Dizer que esse diagnóstico foi devastador é um eufemismo”, ela me diz. “Perder minha voz tem sido um grande negócio para mim, porque é uma parte tão grande de quem eu sou.”

Cortesia de Joyce Esser
Esser tem muitos amigos em todo o país, Paul Esser, seu marido de 38 anos, me diz. “Mas quando eles se reúnem, eles têm uma regra: não fale sobre isso”, diz ele. Falar sobre seu MND pode deixar Joyce soluçar incontrolavelmente. Ela havia preparado uma caixa de lenços para nossa conversa.