Anunciamos novos produtos e recursos para o Azure OpenAI Service, incluindo GPT-4o-Realtime-Preview com recursos de áudio e fala


Temos o prazer de anunciar a prévia pública do GPT-4o-Realtime-Preview para áudio e fala, um grande aprimoramento do Microsoft Azure OpenAI Service que adiciona recursos avançados de voz e expande as ofertas multimodais do GPT-4o.

Temos o prazer de anunciar a prévia pública do GPT-4o-Realtime-Preview para áudio e fala, um grande aprimoramento para Serviço OpenAI do Microsoft Azure que adiciona recursos avançados de voz e expande as ofertas multimodais do GPT-4o. Este marco solidifica ainda mais a liderança do Azure em IA, especialmente no domínio da tecnologia de fala. O legado do Azure neste espaço foi estabelecido há muito tempo por meio de seu serviço de fala, que historicamente integrou fala para texto, texto para fala, vozes neurais e tradução em tempo actual nos principais produtos da Microsoft, como Groups, Workplace 365 e Edge. .

Agora, o GPT-4o-Realtime-Preview amplia ainda mais os limites ao integrar a geração de linguagem com interação de voz perfeita, dando aos desenvolvedores as ferramentas necessárias para criar experiências de IA mais naturais e conversacionais. Desde a criação de assistentes virtuais até o suporte ao cliente em tempo actual, este novo modelo abre uma vasta gama de possibilidades para aplicações acionadas por voz. O novo modelo também está integrado ao Copilot, como parte do novo produto Copilot Voice anunciado.

Com base nos anúncios recentes do Azure OpenAI

Este anúncio continua um série de atualizações significativas no serviço Azure OpenAI, incluindo:

  • Série O1: uma nova linha de modelos projetados para raciocínio avançado sobre dados complexos. Temos o prazer de disponibilizar a API para nossos desenvolvedores no Azure hoje, após uma visualização de duas semanas no Azure AI Studio Playground.
  • Zonas de dados: Habilitando a residência de dados regionais para dar suporte à privacidade e conformidade do cliente.
  • IA confiável: Novas ferramentas, incluindo avaliações no Azure AI Studio para dar suporte a avaliações de risco proativas e marcas d’água em imagens geradas pelo DALL*E.
  • Solicitação de cache (em breve): Inferência mais barata e rápida por meio de cache nos modelos GPT-4o e o1.

Esta evolução contínua demonstra o compromisso do Azure em fornecer as ferramentas de IA mais abrangentes, seguras e versáteis aos clientes em todo o mundo. Marque nosso feed de notícias para rastrear todos os anúncios futuros.

O que há de novo no GPT-4o-Realtime-Preview?

API GPT-4o-Realtime: Com este lançamento, o GPT-4o evolui para suportar entrada e saída de áudio, permitindo interações naturais baseadas em voz em tempo actual que vão além das conversas tradicionais de IA baseadas em texto. Esse recurso multimodal permite que os desenvolvedores criem aplicativos de voz inovadores com facilidade.

Playground de acesso antecipado do Azure AI Studio: Para desenvolvedores ansiosos por explorar, este espaço dedicado permite experimentação antecipada com recursos de API GPT-4o-Realtime para áudio. O estúdio oferece um ambiente para testar, ajustar e otimizar as interações de voz antes de lançá-las em ambientes de produção.

Desempenho que fala por si

Os primeiros clientes que usaram a API GPT-4o-Realtime para áudio compartilharam resultados notáveis, confirmando seu desempenho e impacto:

  • Respostas mais rápidas: A API GPT-4o-Realtime para áudio fornece respostas de voz significativamente mais rápidas do que muitos mecanismos tradicionais de conversão de texto em fala, resultando em latência reduzida e interações mais suaves.
  • Conversas naturais: o modelo minimiza o tom robótico frequentemente associado à fala gerada por IA, tornando as conversas mais envolventes.
  • Suporte multilíngue: a API oferece suporte a uma ampla variedade de idiomas, permitindo conversas naturais e multilíngues que podem ser aplicadas a aplicativos globais.

Aplicações de GPT-4o-Realtime-Preview no serviço Azure OpenAI

O potencial do GPT-4o-Realtime-Preview abrange vários setores, transformando a forma como as empresas operam e como os usuários interagem com a tecnologia:

  • Atendimento ao Cliente: Os chatbots baseados em voz e os assistentes virtuais agora podem lidar com as consultas dos clientes de forma mais pure e eficiente, reduzindo os tempos de espera e melhorando a satisfação geral.
  • Criação de conteúdo: Os produtores de mídia podem revolucionar seus fluxos de trabalho aproveitando a geração de fala para uso em videogames, podcasts e estúdios de cinema.
  • Tradução em tempo actual: Indústrias como a saúde e os serviços jurídicos podem beneficiar da tradução de áudio em tempo actual, quebrando barreiras linguísticas e promovendo uma melhor comunicação em contextos críticos.

Casos de uso que impulsionam a inovação

A versatilidade do GPT-4o-Realtime-Preview já está transformando as operações em diversos setores. Aqui estão alguns dos primeiros usuários e como eles estão se beneficiando dessa tecnologia:

  • Bosch (Alemanha): Integração da API GPT-4o-Realtime para áudio para treinamento em realidade digital em ambientes automotivos, permitindo que consumidores e técnicos recebam instruções guiadas por voz.

“AOAI é uma interface ultimate para nossa solução HeyBosch – Digital Gross sales Govt, pois é uma solução que prioriza a conversa. Podemos integrar facilmente o AOAI à nossa solução existente – Obrigado pelas amostras de referência. O tempo de resposta do agente digital melhorou substancialmente, pois agora temos uma única interface que acopla ambos (fala e LLM). Isso ajuda a manter a latência mínima. Esta integração mostra a arte da possibilidade de criar experiências de usuário atraentes combinando GenAI, tecnologia 3D e recursos de processamento de fala em tempo actual.”Vamsidhar Sunkari Especialista Sênior Bosch World Software program Applied sciences Pvt Ltd.

  • Saúde do pássaro-lira (Austrália): Usando GPT-4o-Realtime-Preview como copiloto médico, resumindo informações do paciente e automatizando tarefas de acompanhamento em tempo actual.

A Lyrebird Well being tem o prazer de trazer recursos de áudio para o relacionamento provedor/paciente. O novo modelo GPT-4o-realtime-preview nos permitirá experimentar e lançar novas experiências para nossos clientes e usuários finais. Isso nos ajudará em nossa missão de fornecer a melhor tecnologia às pessoas do planeta.” — Kai Van Lieshout, cofundador e CEO da Lyrebird Well being

  • Pesquisa de IA do Azure: VoiceRAG aproveita o modelo de áudio em tempo actual GPT-4o do Azure OpenAI e o Azure AI Search para criar um aplicativo avançado de IA generativo baseado em voz com geração aumentada de recuperação (RAG). O sistema integra streaming de áudio em tempo actual e chamada de função para realizar pesquisas na base de conhecimento, garantindo que as respostas sejam bem fundamentadas sem comprometer a latência. Ao lidar com configurações de modelo e processos de recuperação com segurança no backend, o VoiceRAG fornece uma interface pure e conversacional que inclui citações exibidas perfeitamente na experiência do usuário. Mergulhe fundo na experiência VoiceRAG em um weblog dedicado na Microsoft Tech Neighborhood.

Nosso compromisso com uma IA confiável

O Azure permanece firme no seu compromisso com a IA responsávelcom segurança e privacidade como prioridades padrão. A API Realtime utiliza múltiplas camadas de medidas de segurança, incluindo monitoramento automatizado e revisão humana, para evitar uso indevido.

A API Realtime passou por avaliações rigorosas orientadas por nossos compromissos com a IA responsável. Confira o Relatório de Transparência de IA Responsável de 2024.

O Azure OpenAI Service fornece recursos integrados de Segurança de Conteúdo sem custo adicional, e o Azure AI Studio oferece ferramentas para avaliar a segurança de seus aplicativos de IA, garantindo uma experiência de IA segura e responsável.

O que vem a seguir com a API GPT-4o-Realtime para áudio?

À medida que continuamos a inovar e expandir os recursos da API GPT-4o-Realtime para áudio, estamos entusiasmados em ver como os desenvolvedores e as empresas aproveitarão essa tecnologia de ponta para criar aplicativos orientados por voz que ultrapassam os limites do que é possível.

Esteja você procurando integrar recursos de voz em suas operações de atendimento ao cliente ou explorar as possibilidades de interações multilíngues, a API GPT-4o-Realtime para áudio oferece flexibilidade e poder para transformar suas soluções de IA. A partir de hoje, você pode explorar esses novos recursos no Estúdio Azure OpenAIexperimente-os no Early Entry Playground ou integre diretamente a API em tempo actual na visualização pública em seus aplicativos.

Certifique-se de revisar nossa documentação para obter as atualizações mais recentes, mergulhar nos casos de uso disponíveis e começar a construir com a API GPT-4o-Realtime para áudio para levar sua empresa ao próximo nível de inovação em IA.

Fique ligado nas próximas histórias de clientes, demonstrações detalhadas de casos de uso e muito mais à medida que continuamos a lançar atualizações nas próximas semanas!



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *