Como acessar, aplicações e muito mais


O OpenAI revelou recentemente um conjunto de modelos de áudio de próxima geração, aprimorando os recursos de aplicativos habilitados por voz. Esses avanços incluem novos fala para texto (STT) e Texto para fala (TTS) Modelos, oferecendo aos desenvolvedores mais ferramentas para criar agentes de voz sofisticados. Esses modelos de voz avançados, lançados na API, permitem que os desenvolvedores em todo o mundo construam agentes de voz flexíveis e confiáveis ​​com muito mais facilidade. Neste artigo, exploraremos os recursos e aplicações dos modelos GPT-4O-Transcribe da OpenAI, GPT-4O-Mini-Transcrib e GPT-4O-Mini TTS. Também aprenderemos a acessar os modelos de áudio do OpenAi e experimentá -los. Então, vamos começar!

Novos modelos de áudio do OpenAI

A OpenAI introduziu uma nova geração de modelos de áudio projetados para aprimorar os recursos de reconhecimento de fala e síntese de voz. Esses modelos oferecem melhorias na precisão, velocidade e flexibilidade, permitindo que os desenvolvedores construam aplicativos de voz mais poderosos orientados a IA. A suíte inclui 2 modelos de fala para texto e 1 modelo de texto em fala, que são:

  1. GPT-4O-Transcribe: O modelo de fala para texto mais avançado da OpenAI, oferecendo precisão de transcrição líder do setor. Ele foi projetado para aplicativos que requerem transcrições precisas e confiáveis, como transcrições de reuniões e palestras, registros de chamadas de atendimento ao cliente e legenda de conteúdo.
  2. GPT-4O-Mini-Transcribe: Uma versão menor, leve e mais eficiente do modelo de transcrição acima. É otimizado para aplicativos de menor latência, como legendas ao vivo, comandos de voz e agentes interativos de IA. Ele fornece velocidades de transcrição mais rápidas, custos computacionais mais baixos e um equilíbrio entre precisão e eficiência.
  3. GPT-4O-MINI TTS: Este modelo apresenta a capacidade de instruir a IA a falar em estilos ou tons específicos, fazendo com que as vozes geradas pela IA pareçam mais humanas. Agora, os desenvolvedores podem adaptar o tom de voz do agente para combinar diferentes contextos, como amigável, profissional ou dramático. Funciona bem com os modelos de fala para texto do OpenAI, permitindo interações de voz suaves.

Os modelos de fala para texto vêm com tecnologias avançadas, como o cancelamento de ruído. Eles também estão equipados com um detector de atividades de voz semântica que pode detectar com precisão quando o usuário terminar de falar. Essas inovações ajudam os desenvolvedores a lidar com vários problemas comuns ao criar agentes de voz. Juntamente com esses novos modelos, o OpenAI também anunciou que seus agentes lançados recentemente SDK agora suportam o Audio, o que facilita ainda mais para os desenvolvedores criar agentes de voz.

Saber mais: Como usar o OpenAi Responses API & Agent SDK?

Inovações técnicas por trás dos modelos de áudio do OpenAI

Os avanços nesses modelos de áudio são atribuídos a várias inovações técnicas importantes:

  • Pré -treinamento com conjuntos de dados de áudio autênticos: A alavancagem de dados de áudio extensos e diversos enriqueceu a capacidade dos modelos de entender e gerar padrões de fala do tipo humano.
  • Metodologias avançadas de destilação: Essas técnicas foram empregadas para otimizar o desempenho do modelo, garantindo a eficiência sem comprometer a qualidade.
  • Paradigma de aprendizado de reforço: A implementação da aprendizagem de reforço contribuiu para a maior precisão e adaptabilidade dos modelos em vários cenários de fala.

Como acessar os modelos de áudio do OpenAi

O modelo mais recente, GPT-4O-Mini TTS está disponível em uma nova plataforma lançada pela abertura da IA ​​chamada OpenAi.fm. Veja como você pode acessar este modelo:

  1. Abra o web site

    Primeiro, vá para www.openai.fm.

  2. Escolha a voz e a vibração

    Na interface que se abre, escolha sua voz e defina a vibração. Se você não conseguir encontrar o personagem certo com a vibração certa, clique no botão Atualizar para obter opções diferentes.

  3. Tune a voz

    Você pode personalizar ainda mais a voz escolhida com um immediate detalhado. Abaixo das opções de vibração, você pode digitar detalhes como sotaque, tom, ritmo, and so forth. para obter a voz exata que deseja.

  4. Adicione o script e jogue

    Depois de definido, basta digitar seu script na caixa de entrada de texto à direita e clique no botão ‘play’. Se você gosta do que ouve, pode baixar o áudio ou compartilhá -lo externamente. Caso contrário, você pode continuar experimentando mais iterações até acertar.

Como acessar, aplicações e muito mais

A página não requer inscrição e você pode jogar com o modelo como quiser. Além disso, no canto superior direito, há até uma alternância que lhe dará o código do modelo, ajustado às suas escolhas.

Teste prático dos modelos de áudio do OpenAi

Agora que sabemos como usar o modelo, vamos tentar! Primeiro, vamos experimentar o web site OpenAi.fm.

1. Usando GPT-4O-Mini-transcribe no OpenAi.fm

Suponha que eu deseje construir um agente de suporte de voz de “serviços de emergência”.

Para este agente, seleciono o:

  • Voz – Nova
  • Vibe – simpático

Use as seguintes instruções:

Tom: Calmo, confiante e autoritário. Tranquilizador para manter o chamador à vontade enquanto lida com a situação. Profissional, porém empático, refletindo uma preocupação genuína pelo bem-estar do chamador.

Ritmo: Constante, claro e deliberado. Não é muito rápido para evitar o pânico, mas não muito lento para atrasar a resposta. Pequenas pequenas pausas para dar tempo ao chamador para responder e processar informações.

Clareza: Decesso claro e neutro, com uma voz bem-comunicada. Evite termos de jargão ou complicados, usando um idioma simples e fácil de entender.

Empatia: Reconheça o estado emocional do chamador (medo, pânico, and so forth.) sem adicionar a ele.

Ofereça tranquilidade e apoio calmo ao longo da conversa.

Use o seguinte script:

“Olá, são serviços de emergência. Estou aqui para ajudá -lo. Fique calmo e ouça com cuidado enquanto o guio nessa situação.”

“A ajuda está a caminho, mas preciso de um pouco de informação para garantir que respondamos de maneira rápida e adequada.”

“Por favor, forneça -me sua localização. O endereço exato ou os marcos próximos nos ajudarão a chegar até você mais rapidamente.”

“Obrigado; se alguém está ferido, preciso que você fique com eles e evite movê -los a menos que seja necessário.”

“Se houver algum sangramento, aplique pressão à ferida para controlá -la. Se a pessoa não estiver respirando, eu o guiarei através da RCP. Fique com ela e mantenha a calma.”

“Se não houver lesões, encontre um lugar seguro e fique lá. Evite o perigo e aguarde a chegada dos atendentes de emergência.”

“Você está indo muito bem. Fique na linha comigo e vou garantir que a ajuda esteja a caminho e mantenha você atualizado até que os respondentes cheguem.”

Aplicativo de modelo de áudio GPT-4O-Mini-Mini TTS do OpenAI

Saída:

Não foi ótimo? Os mais recentes modelos de áudio do OpenAI agora também estão acessíveis através da API do OpenAI, permitindo que os desenvolvedores os integrem a vários aplicativos.

Agora vamos testar isso.

2. Usando GPT-4o-Audio-Preview by way of API

Acessaremos o modelo GPT-4O-Audio-Preview by way of API do OpenAI e experimentando duas tarefas: uma para o texto em fala e a outra para o texto para texto.

Tarefa 1: Texto-fala

Para esta tarefa, estarei pedindo ao modelo que me diga uma piada.

Entrada de código:

import base64
from openai import OpenAI


shopper = OpenAI(api_key = "OPENAI_API_KEY")
completion = shopper.chat.completions.create(
   mannequin="gpt-4o-audio-preview",
   modalities=("textual content", "audio"),
   audio={"voice": "alloy", "format": "wav"},
   messages=(
       {
           "function": "consumer",
           "content material": "Are you able to inform me a joke about an AI making an attempt to inform a joke?"
       }
   )
)
print(completion.selections(0))
wav_bytes = base64.b64decode(completion.selections(0).message.audio.knowledge)
with open("output.wav", "wb") as f:
   f.write(wav_bytes)

Resposta:

Tarefa 2: fala para texto

Para nossa segunda tarefa, vamos dar o modelo Este arquivo de áudio E veja se pode nos contar sobre a gravação.

Entrada de código:

import base64
import requests
from openai import OpenAI
shopper = OpenAI(api_key = "OPENAI_API_KEY")


# Fetch the audio file and convert it to a base64 encoded string
url = "https://cdn.openai.com/API/docs/audio/alloy.wav"
response = requests.get(url)
response.raise_for_status()
wav_data = response.content material
encoded_string = base64.b64encode(wav_data).decode('utf-8')


completion = shopper.chat.completions.create(
   mannequin="gpt-4o-audio-preview",
   modalities=("textual content", "audio"),
   audio={"voice": "alloy", "format": "wav"},
   messages=(
       {
           "function": "consumer",
           "content material": (
               {
                   "sort": "textual content",
                   "textual content": "What's on this recording?"
               },
               {
                   "sort": "input_audio",
                   "input_audio": {
                       "knowledge": encoded_string,
                       "format": "wav"
                   }
               }
           )
       },
   )
)
print(completion.selections(0).message)

Resposta:

Saída GPT-4O-Audio-Preview

Resultados de referência dos modelos de áudio do OpenAI

Para avaliar o desempenho de seus mais recentes modelos de fala para texto, o OpenAI conduziu testes de referência usando a taxa de erro de palavras (WER), uma métrica padrão no reconhecimento de fala. O WER mede a precisão da transcrição calculando a porcentagem de palavras incorretas em comparação com uma transcrição de referência. Um WER mais baixo indica melhor desempenho com menos erros.

GPT-4O-Transcribil

Como os resultados mostram, os novos modelos de fala para texto-GPT-4O-Transcribe e GPT-4O-Mini-Transcrib-oferecem taxas de erro de palavras aprimoradas e reconhecimento aprimorado de linguagem em comparação com modelos anteriores como Whisper.

Desempenho no benchmark Fleurs

Um dos principais benchmarks utilizados é Fleurs (avaliação de aprendizado de poucos tiro das representações universais da fala), que é um conjunto de dados de fala multilíngue que cobre mais de 100 idiomas com amostras de áudio transcritas manualmente.

GPT-4O-Transcribil

Os resultados indicam que os novos modelos do OpenAI:

  • Alcance WER mais baixo em vários idiomas, demonstrando maior precisão da transcrição.
  • Mostre uma cobertura multilíngue mais forte, tornando -os mais confiáveis ​​para diversas aplicações linguísticas.
  • Supere o Whisper V2 e o Whisper V3, os modelos de geração anterior da OpenAI, em todos os idiomas avaliados.

Custo dos modelos de áudio do OpenAI

Custo dos modelos de áudio OpenAi

Conclusão

Os mais recentes modelos de áudio da OpenAI marcam uma mudança significativa de agentes puramente baseados em texto para agentes de voz sofisticados, preenchendo a lacuna entre a IA e a interação humana. Esses modelos não entendem apenas o que dizer – eles entendem como dizê -lo, capturando tom, ritmo e emoção com precisão notável. Ao oferecer recursos de fala para texto e texto em fala, o OpenAI permite que os desenvolvedores criem experiências de voz orientadas pela IA que parecem mais naturais e envolventes.

A disponibilidade desses modelos por meio da API significa que os desenvolvedores agora têm maior controle sobre o conteúdo e a entrega da fala gerada pela IA. Além disso, o SDK dos agentes da OpenAI facilita a transformação de agentes tradicionais baseados em texto em agentes de voz totalmente funcionais, abrindo novas possibilidades de atendimento ao cliente, ferramentas de acessibilidade e aplicativos de comunicação em tempo actual. À medida que o OpenAI continua a refinar sua tecnologia de voz, esses avanços estabelecem um novo padrão para interações movidas a IA.

Perguntas frequentes

Q1. Quais são os novos modelos de áudio do OpenAI?

A. O OpenAI introduziu três novos modelos de áudio-GPT-4O-Transcrib, GPT-4O-Mini-Transcrib e GPT-4O-Mini TTS. Esses modelos foram projetados para aprimorar os recursos de fala para texto e texto a fala, permitindo transcrições mais precisas e discurso gerado por IA com som pure.

Q2. Como os novos modelos de áudio do OpenAI são diferentes de Whisper?

R. Comparado aos modelos Whisper da OpenAI, os novos modelos de áudio GPT-4O oferecem maior precisão da transcrição e taxas de erro de palavras mais baixas. Ele também oferece suporte multilíngue aprimorado e melhor capacidade de resposta em tempo actual. Além disso, o modelo de texto em fala fornece mais modulação de voz pure, permitindo que os usuários ajustem o tom, o estilo e o ritmo para uma fala mais gerada por IA.

Q3. Quais são os principais recursos do novo modelo de texto em fala (TTS) do OpenAI?

R. O novo modelo TTS permite que os usuários gerem fala com estilos, tons e ritmo personalizáveis. Ele aprimora a modulação de voz humana e suporta diversos casos de uso, dos assistentes de voz da IA ​​à narração de audiolivros. O modelo também fornece melhor expressão e clareza emocionais do que as iterações anteriores.

This fall. Como o GPT-4O-Transcribe e o GPT-4O-Mini-Transcribe são diferentes?

A. O GPT-4O-Transcribe oferece precisão de transcrição líder do setor, tornando-o ideally suited para casos de uso profissional, como transcrições de reunião e registros de atendimento ao cliente. O GPT-4O-Mini-Transcribe é otimizado para eficiência e velocidade, atendendo a aplicativos em tempo actual, como legendas ao vivo e agentes interativos de IA.

Q5. O que é openai.fm?

A. OpenAI.FM é uma plataforma da Internet em que os usuários podem testar o modelo de texto em fala do OpenAI sem se inscrever. Os usuários podem selecionar uma voz, ajustar o tom, inserir um script e gerar áudio instantaneamente. A plataforma também fornece o código da API subjacente para maior personalização.

Q6. Os agentes do OpenAI podem ajudar os desenvolvedores a criar agentes de voz?

R. Sim, o SDK dos agentes da OpenAI agora suporta áudio, permitindo que os desenvolvedores convertem agentes baseados em texto em agentes de voz interativos. Isso facilita a criação de bots de suporte ao cliente, ferramentas de acessibilidade e assistentes de IA personalizados com recursos de voz avançados.

Sabreena é um entusiasta da Genai e editor de tecnologia que é apaixonado por documentar os últimos avanços que moldam o mundo. Atualmente, ela está explorando o mundo da IA ​​e da ciência de dados como gerente de conteúdo e crescimento da Analytics Vidhya.

Faça login para continuar lendo e desfrutar de conteúdo com curado especialista.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *