Os novos níveis de serviço do Amazon Bedrock ajudam você a combinar o desempenho da carga de trabalho de IA com o custo -itstec.com.br. All rights reserved.

Hoje, Base Amazônica apresenta novos níveis de serviço que oferecem mais controle sobre os custos da carga de trabalho de IA, mantendo os níveis de desempenho necessários para seus aplicativos.

Estou trabalhando com clientes que criam aplicativos de IA. Vi em primeira mão como diferentes cargas de trabalho exigem diferentes compensações de desempenho e custos. Muitas organizações que executam cargas de trabalho de IA enfrentam desafios para equilibrar requisitos de desempenho com otimização de custos. Algumas aplicações necessitam de tempos de resposta rápidos para interações em tempo actual, enquanto outras podem processar dados de forma mais gradual. Com esses desafios em mente, anunciamos hoje preços de opções adicionais que oferecem mais flexibilidade para combinar os requisitos da sua carga de trabalho com a otimização de custos.

O Amazon Bedrock agora oferece três níveis de serviço para cargas de trabalho: Prioritário, Padrão e Flex. Cada camada é projetada para atender a requisitos específicos de carga de trabalho. Os aplicativos têm requisitos de tempo de resposta variados com base no caso de uso. Algumas aplicações – como sistemas de negociação financeira – exigem tempos de resposta mais rápidos, outras precisam de tempos de resposta rápidos para apoiar processos de negócios como geração de conteúdo, e aplicações como resumo de conteúdo podem processar dados de forma mais gradual.

O Prioridade A camada processa suas solicitações antes de outras camadas, fornecendo alocação preferencial de computação para aplicativos de missão crítica, como assistentes baseados em bate-papo voltados para o cliente e serviços de tradução de idiomas em tempo actual, embora a um preço premium. O Padrão O nível fornece desempenho consistente a taxas regulares para tarefas diárias de IA, superb para geração de conteúdo, análise de texto e processamento rotineiro de documentos. Para cargas de trabalho que podem lidar com latências mais longas, o Flexível O nível oferece uma opção mais econômica com preços mais baixos, que é adequada para avaliações de modelos, resumo de conteúdo e análise de várias etapas e fluxos de trabalho de agente.

Agora você pode otimizar seus gastos combinando cada carga de trabalho com o nível mais apropriado. Por exemplo, se você estiver executando um assistente baseado em chat de atendimento ao cliente que precisa de respostas rápidas, poderá usar o nível Prioridade para obter os tempos de processamento mais rápidos. Para tarefas de resumo de conteúdo que podem tolerar tempos de processamento mais longos, você pode usar a camada Flex para reduzir custos e, ao mesmo tempo, manter um desempenho confiável. Para a maioria dos modelos que suportam o nível prioritário, os clientes podem obter latência de tokens de saída por segundo (OTPS) até 25% melhor em comparação com o nível padrão.

Verifique o Documentação do Amazon Bedrock para obter uma lista atualizada de modelos compatíveis com cada nível de serviço.

Escolhendo o nível certo para sua carga de trabalho

Aqui está um modelo psychological para ajudá-lo a escolher o nível certo para sua carga de trabalho.

Categoria	Camada de serviço recomendada	Descrição
Missão crítica	Prioridade	As solicitações são tratadas antes de outras camadas. Respostas de menor latência para aplicativos voltados para o usuário (por exemplo, assistentes de chat de atendimento ao cliente, tradução de idiomas em tempo actual, assistentes interativos de IA)
Padrão empresarial	Padrão	Desempenho responsivo para cargas de trabalho importantes (por exemplo, geração de conteúdo, análise de texto, processamento rotineiro de documentos)
Negócio não crítico	Flexível	Econômico para cargas de trabalho menos urgentes (por exemplo, avaliações de modelos, resumo de conteúdo, fluxos de trabalho de agência em várias etapas)

Comece revisando com os proprietários dos aplicativos seus padrões de uso atuais. Em seguida, identifique quais cargas de trabalho precisam de respostas imediatas e quais podem processar os dados de forma mais gradual. Você pode então começar a rotear uma pequena parte do seu tráfego através de diferentes níveis para testar o desempenho e os benefícios de custo.

O Calculadora de preços AWS ajuda a estimar custos para diferentes níveis de serviço inserindo a carga de trabalho esperada para cada nível. Você pode estimar seu orçamento com base em seus padrões de uso específicos.

Para monitorar seu uso e custos, você pode usar o Console de cotas de serviço da AWS ou ativar o registro de invocação de modelo no Amazon Bedrock e observe as métricas com Amazon CloudWatch. Essas ferramentas fornecem visibilidade sobre o uso do token e ajudam a monitorar o desempenho em diferentes níveis.

Você pode começar a usar os novos níveis de serviço hoje. Você escolhe o nível por chamada de API. Aqui está um exemplo usando o ChatCompletions API OpenAI, mas você pode passar o mesmo service_tier parâmetro no corpo de InvokeModel, InvokeModelWithResponseStream, ConverseeConverseStream APIs (para modelos suportados):

from openai import OpenAI

shopper = OpenAI(
    base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1",
    api_key="$AWS_BEARER_TOKEN_BEDROCK" # Change with precise API key
)

completion = shopper.chat.completions.create(
    mannequin= "openai.gpt-oss-20b-1:0",
    messages=(
        {
            "function": "developer",
            "content material": "You're a useful assistant."
        },
        {
            "function": "consumer",
            "content material": "Hi there!"
        }
    )
    service_tier= "precedence"  # choices: "precedence | default | flex"
)

print(completion.selections(0).message)

Para saber mais, confira o Guia do usuário do Amazon Bedrock ou entre em contato com a equipe da sua conta da AWS para obter assistência detalhada no planejamento.

Estou ansioso para saber como você usa essas novas opções de preços para otimizar suas cargas de trabalho de IA. Compartilhe sua experiência comigo on-line nas redes sociais ou conecte-se comigo em eventos da AWS.

– seb

Os novos níveis de serviço do Amazon Bedrock ajudam você a combinar o desempenho da carga de trabalho de IA com o custo

Deixe um comentário Cancelar resposta

Revisão: Equipment BetaFPV Aquila20 HD FPV – Melhor que a versão analógica?

Volatus integra Trimble PX-1 para entrega de drones de precisão

Rota de preservação de simetria para isoladores de ordem superior – Physics World

Nanofibras ainda lutam pelo sucesso industrial após 25 anos

Sensor de dor autocurativo feito de gelatina pode dar aos robôs reflexos semelhantes aos humanos

Quando o calor se transfer lateralmente – Physics World

Airtel lança pacote de dados de 3 GB por dia em círculos selecionados

Empresas de investimento americanas apostam alto no increase dos information facilities na Europa

Apresentamos instâncias X8aedz do Amazon EC2 com tecnologia de processadores AMD EPYC de 5ª geração para cargas de trabalho com uso intensivo de memória

Aumovio recorre à nuvem para dimensionar testes de veículos autônomos

Aprendizagem supervisionada: a base da modelagem preditiva

Como a 7‑Eleven transformou o acesso ao conhecimento do técnico de manutenção com blocos de agente do Databricks