As vozes da IA ​​devem parecer robóticas novamente: uma solução simples



As vozes da IA ​​devem parecer robóticas novamente: uma solução simples

A maioria das pessoas sabe disso robôs não mais som Como tinny lixo latas. Eles parecem SiriAssim, Alexae Gêmeos. Eles parecem as vozes no suporte ao cliente labiríntico telefone árvores. E até aqueles robô Vozes estão sendo feitas obsoleto por novo Vozes geradas pela IA isso pode imitar todas as nuances vocais e tiques de humano discursoaté sotaques regionais específicos. E com apenas alguns segundos de ÁudioAssim, Ai agora pode Clone a voz específica de alguém.

Esse tecnologia substituirá os seres humanos em muitas áreas. O suporte ao cliente automatizado salvará dinheiro Cortando o pessoal em name facilities. Agentes da IA vai fazer chamadas em nosso nome, conversando com outras pessoas em linguagem pure. Tudo isso está acontecendo e será comum em breve.

Mas há algo fundamentalmente diferente em conversar com um bot em oposição a uma pessoa. Uma pessoa pode ser um amigo. Uma IA não pode ser um amigo, apesar de como as pessoas podem tratá -la ou reagir a ela. Ai é, na melhor das hipóteses, uma ferramenta e, na pior das hipóteses manipulação. Os seres humanos precisam saber se estamos conversando com uma pessoa viva e respiratória ou um robô com uma agenda definida pela pessoa que a controla. É por isso que os robôs devem parecer robôs.

Você não pode simplesmente rotular o discurso gerado pela AI. Ele virá em muitas formas diferentes. Portanto, precisamos de uma maneira de reconhecer a IA que funciona, independentemente da modalidade. Ele precisa funcionar para trechos longos ou curtos de áudio, mesmo apenas um segundo. Precisa funcionar para qualquer linguageme em qualquer contexto cultural. Ao mesmo tempo temponão devemos restringir a sofisticação ou a complexidade da linguagem do sistema subjacente.

Temos uma proposta simples: todos os AIs e robôs falantes devem usar um anel modulador. Em meados do século XX, antes de ser fácil criar fala de discurso de som robótico sinteticamente, os moduladores de anel foram usados ​​para fazer com que as vozes dos atores pareçam robóticas. Nas últimas décadas, nos acostumamos a vozes robóticas, simplesmente porque o texto em fala sistemas eram bons o suficiente para produzir um discurso inteligível que não period humano em seu som. Agora, podemos usar a mesma tecnologia para fazer um discurso robótico indistinguível do som humano robótico novamente.

Um modulador de anel tem várias vantagens: é computacionalmente simples, pode ser aplicado em tempo actual, não afeta a inteligibilidade do voze-mais importante-é universalmente “soando robótico” por causa de seu uso histórico para representar robôs.

Responsável Empresas de IA que fornecem síntese de voz ou ai assistentes de voz de qualquer forma deveria adicionar um modulador de anel de alguns padrão Frequência (digamos, entre 30-80 Hz) e de uma amplitude mínima (digamos, 20 %). É isso. As pessoas vão pegar rapidamente.

Aqui São alguns exemplos que você pode ouvir para exemplos do que estamos sugerindo. O primeiro Clip é um “podcast” gerado pela IA deste artigo feito por Notebooklm do Google Apresentando dois “anfitriões” da AI. O Notebooklm do Google criou o script e o áudio do podcast, dado apenas o texto deste artigo. Os próximos dois clipes apresentam o mesmo podcast com as vozes da AIS moduladas cada vez menos sutilmente por um modulador de anel:

Conseguimos gerar o efeito de áudio com uma linha de 50 linhas Python script gerado por Claude do Anthrópico. Uma das vozes de robô mais conhecidas eram as de os Daleks do Physician Who Na década de 1960. Naquela época, as vozes do robô eram difíceis de sintetizar, então o áudio period na verdade a voz de um ator correndo através de um modulador de anel. Foi definido para cerca de 30 Hz, como fizemos em nosso exemplo, com profundidade de modulação (amplitude) diferente, dependendo de quão forte o efeito robótico deve ser. Nossa expectativa é que a IA indústria vai teste e converge em um bom equilíbrio desses parâmetros e configurações, e usará melhor ferramentas do que um script Python de 50 linhas, mas isso destaca como é simples alcançar.

É claro que também haverá usos nefastos das vozes da IA. Golpes esse uso clonagem de voz estão ficando mais fáceis a cada ano, mas eles são possíveis há muitos anos com o know-how certo. Assim como estamos aprendizado que não podemos mais confiar imagens e vídeos Vemos porque eles poderiam facilmente ter sido gerados pela IA, todos aprenderemos em breve que alguém que soa como um membro da família solicitando urgentemente dinheiro pode ser apenas um golpista usando uma ferramenta de clonagem de voz.

Não esperamos que os golpistas sigam nossa proposta: eles encontrarão uma maneira, não importa o quê. Mas isso sempre é verdade segurança padrõese uma maré em ascensão levanta tudo barcos. Achamos que a maior parte dos usos será com a voz fashionable APIs Das principais empresas-e todos devem saber que estão conversando com um robô.

Dos artigos do seu website

Artigos relacionados ao redor da internet

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *