Os novos níveis de serviço do Amazon Bedrock ajudam você a combinar o desempenho da carga de trabalho de IA com o custo


Os novos níveis de serviço do Amazon Bedrock ajudam você a combinar o desempenho da carga de trabalho de IA com o custo

Hoje, Base Amazônica apresenta novos níveis de serviço que oferecem mais controle sobre os custos da carga de trabalho de IA, mantendo os níveis de desempenho necessários para seus aplicativos.

Estou trabalhando com clientes que criam aplicativos de IA. Vi em primeira mão como diferentes cargas de trabalho exigem diferentes compensações de desempenho e custos. Muitas organizações que executam cargas de trabalho de IA enfrentam desafios para equilibrar requisitos de desempenho com otimização de custos. Algumas aplicações necessitam de tempos de resposta rápidos para interações em tempo actual, enquanto outras podem processar dados de forma mais gradual. Com esses desafios em mente, anunciamos hoje preços de opções adicionais que oferecem mais flexibilidade para combinar os requisitos da sua carga de trabalho com a otimização de custos.

O Amazon Bedrock agora oferece três níveis de serviço para cargas de trabalho: Prioritário, Padrão e Flex. Cada camada é projetada para atender a requisitos específicos de carga de trabalho. Os aplicativos têm requisitos de tempo de resposta variados com base no caso de uso. Algumas aplicações – como sistemas de negociação financeira – exigem tempos de resposta mais rápidos, outras precisam de tempos de resposta rápidos para apoiar processos de negócios como geração de conteúdo, e aplicações como resumo de conteúdo podem processar dados de forma mais gradual.

O Prioridade A camada processa suas solicitações antes de outras camadas, fornecendo alocação preferencial de computação para aplicativos de missão crítica, como assistentes baseados em bate-papo voltados para o cliente e serviços de tradução de idiomas em tempo actual, embora a um preço premium. O Padrão O nível fornece desempenho consistente a taxas regulares para tarefas diárias de IA, superb para geração de conteúdo, análise de texto e processamento rotineiro de documentos. Para cargas de trabalho que podem lidar com latências mais longas, o Flexível O nível oferece uma opção mais econômica com preços mais baixos, que é adequada para avaliações de modelos, resumo de conteúdo e análise de várias etapas e fluxos de trabalho de agente.

Agora você pode otimizar seus gastos combinando cada carga de trabalho com o nível mais apropriado. Por exemplo, se você estiver executando um assistente baseado em chat de atendimento ao cliente que precisa de respostas rápidas, poderá usar o nível Prioridade para obter os tempos de processamento mais rápidos. Para tarefas de resumo de conteúdo que podem tolerar tempos de processamento mais longos, você pode usar a camada Flex para reduzir custos e, ao mesmo tempo, manter um desempenho confiável. Para a maioria dos modelos que suportam o nível prioritário, os clientes podem obter latência de tokens de saída por segundo (OTPS) até 25% melhor em comparação com o nível padrão.

Verifique o Documentação do Amazon Bedrock para obter uma lista atualizada de modelos compatíveis com cada nível de serviço.

Escolhendo o nível certo para sua carga de trabalho

Aqui está um modelo psychological para ajudá-lo a escolher o nível certo para sua carga de trabalho.

CategoriaCamada de serviço recomendadaDescrição
Missão críticaPrioridadeAs solicitações são tratadas antes de outras camadas. Respostas de menor latência para aplicativos voltados para o usuário (por exemplo, assistentes de chat de atendimento ao cliente, tradução de idiomas em tempo actual, assistentes interativos de IA)
Padrão empresarialPadrãoDesempenho responsivo para cargas de trabalho importantes (por exemplo, geração de conteúdo, análise de texto, processamento rotineiro de documentos)
Negócio não críticoFlexívelEconômico para cargas de trabalho menos urgentes (por exemplo, avaliações de modelos, resumo de conteúdo, fluxos de trabalho de agência em várias etapas)

Comece revisando com os proprietários dos aplicativos seus padrões de uso atuais. Em seguida, identifique quais cargas de trabalho precisam de respostas imediatas e quais podem processar os dados de forma mais gradual. Você pode então começar a rotear uma pequena parte do seu tráfego através de diferentes níveis para testar o desempenho e os benefícios de custo.

O Calculadora de preços AWS ajuda a estimar custos para diferentes níveis de serviço inserindo a carga de trabalho esperada para cada nível. Você pode estimar seu orçamento com base em seus padrões de uso específicos.

Para monitorar seu uso e custos, você pode usar o Console de cotas de serviço da AWS ou ativar o registro de invocação de modelo no Amazon Bedrock e observe as métricas com Amazon CloudWatch. Essas ferramentas fornecem visibilidade sobre o uso do token e ajudam a monitorar o desempenho em diferentes níveis.

Observabilidade de invocações do Amazon Bedrock

Você pode começar a usar os novos níveis de serviço hoje. Você escolhe o nível por chamada de API. Aqui está um exemplo usando o ChatCompletions API OpenAI, mas você pode passar o mesmo service_tier parâmetro no corpo de InvokeModel, InvokeModelWithResponseStream, ConverseeConverseStream APIs (para modelos suportados):

from openai import OpenAI

shopper = OpenAI(
    base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1",
    api_key="$AWS_BEARER_TOKEN_BEDROCK" # Change with precise API key
)

completion = shopper.chat.completions.create(
    mannequin= "openai.gpt-oss-20b-1:0",
    messages=(
        {
            "function": "developer",
            "content material": "You're a useful assistant."
        },
        {
            "function": "consumer",
            "content material": "Hi there!"
        }
    )
    service_tier= "precedence"  # choices: "precedence | default | flex"
)

print(completion.selections(0).message)

Para saber mais, confira o Guia do usuário do Amazon Bedrock ou entre em contato com a equipe da sua conta da AWS para obter assistência detalhada no planejamento.

Estou ansioso para saber como você usa essas novas opções de preços para otimizar suas cargas de trabalho de IA. Compartilhe sua experiência comigo on-line nas redes sociais ou conecte-se comigo em eventos da AWS.

– seb

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *