Hoje, estamos anunciando a disponibilidade geral de HyperPod do Amazon SageMaker planos de treinamento flexíveis para ajudar os cientistas de dados a treinar grandes modelos de fundação (FMs) dentro de seus cronogramas e orçamentos e economizando semanas de esforço no gerenciamento do processo de treinamento com base na disponibilidade de computação.
No AWS re:Invent 2023, nós apresentou o SageMaker HyperPod para reduzir o tempo de treinamento de FMs em até 40% e dimensionar milhares de recursos de computação em paralelo com bibliotecas de treinamento distribuídas pré-configuradas e resiliência integrada. A maioria das tarefas generativas de desenvolvimento de modelos de IA precisam de recursos computacionais acelerados em paralelo. Nossos clientes lutam para encontrar acesso oportuno aos recursos de computação para concluir seu treinamento dentro do cronograma e das restrições orçamentárias.
Com o anúncio de hoje, você pode encontrar os recursos de computação acelerada necessários para treinamento, criar os planos de treinamento mais adequados e executar cargas de trabalho de treinamento em diferentes blocos de capacidade com base na disponibilidade dos recursos de computação. Em algumas etapas, você pode identificar an information de conclusão do treinamento, o orçamento, os requisitos de recursos de computação, criar planos de treinamento ideais e executar trabalhos de treinamento totalmente gerenciados, sem precisar de intervenção guide.
Planos de treinamento SageMaker HyperPod em ação
Para começar, vá para o Console de IA do Amazon SageMakerescolher Planos de treinamento no painel de navegação esquerdo e escolha Criar plano de treinamento.
Por exemplo, escolha an information e hora de treinamento de sua preferência (10 dias), tipo de instância e contagem (16 ml.p5.48xlarge
) para o cluster SageMaker HyperPod e escolha Encontre o plano de treinamento.
SageMaker HyperPod sugere um plano de treinamento dividido em dois segmentos de cinco dias. Isso inclui o preço inicial complete do plano.
Se você aceitar este plano de treinamento, adicione os detalhes do seu treinamento na próxima etapa e escolha Criar seu plano.
Depois de criar seu plano de treinamento, você poderá ver a lista de planos de treinamento. Ao criar um plano de treinamento, você deverá pagar adiantado pelo plano em até 12 horas. Um plano está no Ativo estado e já iniciado, com todas as instâncias em uso. O segundo plano é Agendado para começar mais tarde, mas você já pode enviar trabalhos que iniciam automaticamente quando o plano começa.
No standing ativo, os recursos de computação ficam disponíveis no SageMaker HyperPod, são retomados automaticamente após pausas na disponibilidade e terminam no closing do plano. Há um primeiro segmento em execução no momento e outro segmento na fila para ser executado após o segmento atual.
Isto é semelhante ao Treinamento Spot gerenciado no SageMaker AIonde o SageMaker AI cuida das interrupções das instâncias e continua o treinamento sem intervenção guide. Para saber mais, visite o Planos de treinamento SageMaker HyperPod no Guia do desenvolvedor do Amazon SageMaker AI.
Agora disponível
Os planos de treinamento do Amazon SageMaker HyperPod agora estão disponíveis nas regiões da AWS Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon) e suporte ml.p4d.48xlarge
, ml.p5.48xlarge
, ml.p5e.48xlarge
, ml.p5en.48xlarge
e ml.trn2.48xlarge
instâncias. As instâncias Trn2 e P5en estão apenas na região Leste dos EUA (Ohio). Para saber mais, visite o Página do produto SageMaker HyperPod e Página de preços do SageMaker AI.
Experimente os planos de treinamento do HyperPod no Console de IA do Amazon SageMaker e envie comentários para AWS re:Submit para SageMaker AI ou por meio de seus contatos habituais do AWS Assist.
– Channy