14 de abril de 2025: Put up atualizado para esclarecer o tamanho do contexto.
As interfaces de voz são essenciais para aprimorar a experiência do cliente em diferentes áreas, como automação de chamadas de suporte ao cliente, jogos, educação interativa e aprendizado de idiomas. No entanto, existem desafios ao criar aplicativos habilitados por voz.
As abordagens tradicionais na construção de aplicativos habilitados para voz requerem orquestração complexa de vários modelos, como reconhecimento de fala para converter fala em texto, modelos de idiomas para entender e gerar respostas e texto em fala para converter o texto de volta ao áudio.
Essa abordagem fragmentada não apenas aumenta a complexidade do desenvolvimento, mas também falha em preservar o contexto lingüístico essential, como tom, prosódia e estilo de fala, essenciais para conversas naturais. Isso pode afetar as aplicações de IA conversacionais que precisam de baixa latência e compreensão diferenciada das pistas verbais e não verbais para manuseio de diálogo fluido e reviravoltas naturais.
Para otimizar a implementação de aplicativos habilitados para fala, hoje estamos introduzindo Amazon Nova Sonica mais nova adição ao Amazon Nova família de Modelos de fundação (FMS) disponível em Amazon Bedrock.
A Amazon Nova Sonic unifica o entendimento e a geração da fala em um único modelo que os desenvolvedores podem usar para criar experiências de IA de conversação humana e de baixa latência e desempenho de preços de baixa latência e líder do setor. Essa abordagem integrada simplifica o desenvolvimento e reduz a complexidade ao criar aplicações de conversação.
Sua arquitetura de modelo unificada fornece geração expressiva de fala e transcrição de texto em tempo actual sem exigir um modelo separado. O resultado é uma resposta adaptativa da fala que ajusta dinamicamente sua entrega com base na prosódia, como ritmo e timbre, da fala de entrada.
Ao usar a Amazon Nova Sonic, os desenvolvedores têm acesso à chamada de funções (também conhecida como uso de ferramentas) e fluxos de trabalho agênticos para interagir com serviços e APIs externos e executar tarefas no ambiente do cliente, incluindo fundamento do conhecimento com dados corporativos usando dados usando Geração de recuperação usededed (RAG).
No lançamento, a Amazon Nova Sonic fornece um entendimento robusto de fala para o inglês americano e britânico em vários estilos de fala e condições acústicas, com idiomas adicionais em breve.
Amazon Nova Sonic é desenvolvido com a IA responsável Na vanguarda da inovação, com proteções embutidas para moderação de conteúdo e marcas d’água.
Amazon Nova Sonic em ação
O cenário para esta demonstração é um contact heart no setor de telecomunicações. Um cliente procura melhorar seu plano de assinatura, e a Amazon Nova Sonic lida com a conversa.
Com o uso da ferramenta, o modelo pode interagir com outros sistemas e usar pano agêntico com Bases de conhecimento da Amazon Bedrock Para reunir informações atualizadas e específicas do cliente, como detalhes da conta, planos de assinatura e informações de preços.
A demonstração mostra transcrição de streaming da entrada de fala e exibe respostas de fala como texto como texto. O sentimento da conversa é exibido de duas maneiras: um gráfico de tempo ilustrando como ele evolui e um gráfico de pizza que representa a distribuição geral. Há também uma seção de informações de IA que fornece dicas contextuais para um agente de name heart. Outras métricas interessantes mostradas na interface da Net são a distribuição geral de tempo de conversação entre o cliente e o agente e o tempo médio de resposta.
Durante a conversa com o agente de suporte, você pode observar através das métricas e ouvir nas vozes como o sentimento do cliente melhora.
O vídeo inclui um exemplo de como a Amazon Nova Sonic lida com as interrupções sem problemas, parando para ouvir e depois continuar a conversa de uma maneira pure.
Agora, vamos explorar como você pode integrar recursos de voz em seus aplicativos.
Usando a Amazon Nova Sonic
Para começar com a Amazon Nova Sonic, você primeiro precisa alternar o acesso do modelo no Console da Amazon Bedrocksemelhante a como você permitiria outros FMs. Navegue até o Acesso ao modelo Seção do painel de navegação, encontre Amazon Nova Sonic sob o Amazon modelos e habilitá -lo para sua conta.
A Amazon Bedrock fornece uma nova API de streaming bidirecional (InvokeModelWithBidirectionalStream
) para ajudá-lo a implementar experiências conversacionais em tempo actual e de baixa latência Http/2 protocolo. Com esta API, você pode transmitir a entrada de áudio para o modelo e receber saída de áudio em tempo actual, para que a conversa flua naturalmente.
Você pode usar a Amazon Nova Sonic com a nova API com este ID do modelo: amazon.nova-sonic-v1:0
Após a inicialização da sessão, onde você pode configurar parâmetros de inferência, o modelo opera através de uma arquitetura orientada a eventos nos fluxos de entrada e saída.
Existem três tipos de eventos principais no fluxo de entrada:
Immediate de sistema – Para definir o immediate de sistema geral para a conversa
Streaming de entrada de áudio -Para processar a entrada de áudio contínua em tempo actual
Manuseio de resultados da ferramenta – Para enviar o resultado do uso da ferramenta, as chamadas de volta ao modelo (após o uso da ferramenta são solicitadas nos eventos de saída)
Da mesma forma, existem três grupos de eventos nos fluxos de saída:
Reconhecimento automático de fala (ASR) Streaming -A transcrição de fala para texto é gerada, contendo o resultado do reconhecimento de fala em tempo actual.
Ferramenta Uso de manuseio – Se houver eventos de uso da ferramenta, eles precisam ser tratados usando as informações fornecidas aqui e os resultados enviados de volta como eventos de entrada.
Streaming de saída de áudio -Para reproduzir áudio de saída em tempo actual, é necessário um buffer, porque o modelo Amazon Nova Sonic gera áudio mais rápido que a reprodução em tempo actual.
Você pode encontrar exemplos de usar a Amazon Nova Sonic no Amazon Nova Mannequin Cookbook Repository.
Engenharia rápida para a fala
Ao elaborar instruções para a Amazon Nova Sonic, seus avisos devem otimizar o conteúdo para a compreensão auditiva, em vez de a leitura visible, concentrando -se no fluxo e clareza conversacionais quando ouvidas em vez de ser visto.
Ao definir papéis para o seu assistente, concentre-se em atributos de conversação (como atributos quentes, pacientes, concisas), em vez de atributos orientados para o texto (detalhados, abrangentes, sistemáticos). Um bom immediate de sistema de linha de base pode ser:
You're a buddy. The person and you'll have interaction in a spoken dialog exchanging the transcripts of a pure real-time dialog. Hold your responses quick, typically two or three sentences for chatty eventualities.
De maneira mais geral, ao criar avisos para modelos de fala, evite solicitar formatação visible (como marcadores, tabelas ou blocos de código), modificações características de voz (sotaque, idade ou canto) ou efeitos sonoros.
Coisas para saber
Amazon Nova Sonic está disponível hoje no Leste dos EUA (N. Virginia) Região da AWS. Visita Preços da Amazon Bedrock Para ver os modelos de preços.
A Amazon Nova Sonic pode entender o discurso em diferentes estilos de fala e gera discursos em vozes expressivas, incluindo vozes de som masculino e com som feminino, em diferentes sotaques ingleses, incluindo americanos e britânicos. O suporte a idiomas adicionais chegará em breve.
A Amazon Nova Sonic lida com as interrupções do usuário graciosamente sem abandonar o contexto de conversação e é robusta ao ruído de fundo. O modelo suporta uma janela de contexto de 300k, com um tempo de conexão padrão de 8 minutos. No entanto, você pode estender sua sessão estabelecendo uma nova conexão e passando o histórico de bate -papo anterior como contexto.
A seguir AWS SDKS Apoie a nova API de streaming bidirecional:
Os desenvolvedores do Python podem usar isso Novo SDK experimental Isso facilita o uso dos recursos de streaming bidirecional da Amazon Nova Sonic. Estamos trabalhando para adicionar suporte aos outros SDKs da AWS.
Eu gostaria de agradecer Reilly Manton e Chad Hendrenque montaram a demonstração com o contact heart na indústria de telecomunicações e Anuj Jauharique me ajudou a entender a rica paisagem na qual os modelos de fala a fala estão sendo implantados.
Você pode encontrar mais exemplos em java, node.js e python no Amazon Nova Mannequin Cookbook Repoincluindo padrões de integração comuns, como RAG usando bases de conhecimento da Amazon Bedrock ou Langchain.
Para saber mais, esses artigos que entram nos detalhes de como usar a nova API de streaming bidirecional com demos atraentes:
Esteja você criando soluções de atendimento ao cliente, aplicativos de aprendizado de idiomas ou outras experiências de conversação, a Amazon Nova Sonic fornece a base para interações naturais e envolventes de voz. Para começar, visite o Console da Amazon Bedrock hoje. Para saber mais, visite o Seção da Amazon Nova do Guia do Usuário.
– Danilo
Como está o weblog de notícias? Pegue isso 1 minuto de pesquisa!
(Esse enquete é hospedado por uma empresa externa. AWS lida com suas informações conforme descrito no Aviso de privacidade da AWS. A AWS possuirá os dados coletados por meio desta pesquisa e não compartilharão as informações coletadas com os entrevistados.)