Maximize a utilização do acelerador para desenvolvimento de modelos com a nova governança de tarefas do Amazon SageMaker HyperPod


Maximize a utilização do acelerador para desenvolvimento de modelos com a nova governança de tarefas do Amazon SageMaker HyperPod

Hoje, estamos anunciando a disponibilidade geral de HyperPod do Amazon SageMaker governança de tarefas, uma nova inovação para gerenciar e maximizar de maneira fácil e centralizada a utilização de GPU e Trainium em IA generativa tarefas de desenvolvimento de modelo, como treinamento, ajuste fino e inferência.

Os clientes nos dizem que estão aumentando rapidamente o investimento em projetos generativos de IA, mas enfrentam desafios na alocação eficiente de recursos computacionais limitados. A falta de uma governação dinâmica e centralizada para a atribuição de recursos conduz a ineficiências, com alguns projectos a subutilizarem recursos enquanto outros estagnam. Esta situação sobrecarrega os administradores com um replanejamento constante, causa atrasos para cientistas e desenvolvedores de dados e resulta na entrega intempestiva de inovações de IA e em custos excessivos devido ao uso ineficiente de recursos.

Com a governança de tarefas do SageMaker HyperPod, você pode acelerar o tempo de lançamento de inovações de IA no mercado, evitando custos excessivos devido a recursos de computação subutilizados. Com algumas etapas, os administradores podem configurar cotas que regem a alocação de recursos de computação com base em orçamentos de projetos e prioridades de tarefas. Cientistas de dados ou desenvolvedores podem criar tarefas como treinamento de modelo, ajuste fino ou avaliação, que o SageMaker HyperPod agenda e executa automaticamente dentro de cotas alocadas.

A governança de tarefas do SageMaker HyperPod gerencia recursos, liberando automaticamente a computação de tarefas de baixa prioridade quando tarefas de alta prioridade precisam de atenção imediata. Isso é feito pausando tarefas de treinamento de baixa prioridade, salvando pontos de verificação e retomando-os mais tarde, quando os recursos estiverem disponíveis. Além disso, a computação ociosa dentro da cota de uma equipe pode ser usada automaticamente para acelerar as tarefas em espera de outra equipe.

Cientistas de dados e desenvolvedores podem monitorar continuamente suas filas de tarefas, visualizar tarefas pendentes e ajustar prioridades conforme necessário. Os administradores também podem monitorar e auditar tarefas agendadas e calcular o uso de recursos entre equipes e projetos e, como resultado, podem ajustar alocações para otimizar custos e melhorar a disponibilidade de recursos em toda a organização. Esta abordagem promove a conclusão oportuna de projetos críticos, ao mesmo tempo que maximiza a eficiência dos recursos.

Introdução à governança de tarefas do SageMaker HyperPod
A governança de tarefas está disponível para Clusters do Amazon EKS no HyperPod. Encontrar Gerenciamento de clusters sob Clusters de HyperPod no Console de IA do Amazon SageMaker para provisionar e gerenciar clusters. Como administrador, você pode agilizar a operação e o dimensionamento de clusters HyperPod por meio deste console.

Ao escolher um cluster HyperPod, você pode ver um novo Painel, Tarefase Políticas na página de detalhes do cluster.

1. Novo painel
No novo painel, você pode ter uma visão geral da utilização do cluster, métricas baseadas em equipe e em tarefas.

Primeiro, você pode visualizar métricas pontuais e baseadas em tendências para recursos de computação críticos, incluindo GPU, vCPU e utilização de memória, em todos os grupos de instâncias.

Em seguida, você pode obter insights abrangentes sobre o gerenciamento de recursos específicos da equipe, com foco na utilização da GPU versus alocação de computação entre as equipes. Você pode usar filtros personalizáveis ​​para equipes e grupos de instâncias de cluster para analisar métricas como GPUs/CPUs alocadas para tarefas, GPUs/CPUs emprestadas e utilização de GPU/CPU.

Você também pode avaliar o desempenho da tarefa e a eficiência da alocação de recursos usando métricas como contagens de tarefas em execução, pendentes e antecipadas, bem como tempo médio de execução e tempo de espera da tarefa. Para obter observabilidade abrangente dos recursos e componentes de software program do cluster SageMaker HyperPod, você pode integrar com Insights de contêiner do Amazon CloudWatch ou Grafana gerenciada pela Amazon.

2. Crie e gerencie uma política de cluster
Para permitir a priorização de tarefas e a alocação justa de recursos, você pode configurar uma política de cluster que priorize cargas de trabalho críticas e distribua computação ociosa entre equipes definidas em alocações de computação.

Para configurar lessons de prioridade e compartilhamento justo de computação emprestada em configurações de cluster, escolha Editar no Política de cluster seção.

Você pode definir como as tarefas que aguardam na fila são admitidas para priorização de tarefas: Primeiro a chegar, primeiro a servir por padrão ou Classificação de tarefas. Ao escolher a classificação de tarefas, as tarefas que aguardam na fila serão admitidas na ordem de prioridade definida nesta política de cluster. As tarefas da mesma classe de prioridade serão executadas por ordem de chegada.

Você também pode configurar como a computação ociosa é alocada entre as equipes: Primeiro a chegar, primeiro a servir ou Compartilhamento justo por padrão. A configuração de compartilhamento justo permite que as equipes tomem emprestada computação ociosa com base nos pesos atribuídos, que são configurados em alocações de computação relativas. Isso permite que cada equipe obtenha uma parcela justa da computação ociosa para acelerar suas tarefas de espera.

No Alocação de computação seção do Políticas página, você pode criar e editar alocações de computação para distribuir recursos de computação entre as equipes, habilitar configurações que permitem às equipes emprestar e tomar emprestado computação ociosa, configurar a preempção de suas próprias tarefas de baixa prioridade e atribuir pesos justos às equipes.

No Equipe seção, defina um nome de equipe e um namespace Kubernetes correspondente será criado para uso por suas equipes de ciência de dados e aprendizado de máquina (ML). Você pode definir um peso justo para uma distribuição mais equitativa da capacidade não utilizada entre suas equipes e ativar a opção de preempção com base na prioridade da tarefa, permitindo que tarefas de prioridade mais alta substituam as de prioridade mais baixa.

No Calcular seção, você pode adicionar e alocar cotas de tipo de instância para equipes. Além disso, você pode alocar cotas para tipos de instâncias ainda não disponíveis no cluster, permitindo expansão futura.

Você pode permitir que as equipes compartilhem recursos de computação ociosos, permitindo que emprestem sua capacidade não utilizada a outras equipes. Este modelo de empréstimo é recíproco: as equipes só podem emprestar computação ociosa se também estiverem dispostas a compartilhar seus próprios recursos não utilizados com outras pessoas. Você também pode especificar o limite de empréstimo que permite às equipes emprestar recursos de computação acima da cota alocada.

3. Execute sua tarefa de treinamento no cluster SageMaker HyperPod
Como cientista de dados, você pode enviar um trabalho de treinamento e utilizar a cota alocada para sua equipe, usando o Interface de linha de comando do HyperPod (CLI) comando. Com a CLI do HyperPod, você pode iniciar um trabalho e especificar o namespace correspondente que possui a alocação.

$ hyperpod start-job --name smpv2-llama2 --namespace hyperpod-ns-ml-engineers
Efficiently created job smpv2-llama2
$ hyperpod list-jobs --all-namespaces
{
 "jobs": (
  {
   "Identify": "smpv2-llama2",
   "Namespace": "hyperpod-ns-ml-engineers",
   "CreationTime": "2024-09-26T07:13:06Z",
   "State": "Operating",
   "Precedence": "fine-tuning-priority"
  },
  ...
 )
}

No Tarefas guia, você pode ver todas as tarefas em seu cluster. Cada tarefa tem diferentes prioridades e necessidades de capacidade de acordo com a sua política. Se você executar outra tarefa com prioridade mais alta, a tarefa existente será suspensa e essa tarefa poderá ser executada primeiro.

OK, agora vamos conferir um vídeo de demonstração que mostra o que acontece quando uma tarefa de treinamento de alta prioridade é adicionada durante a execução de uma tarefa de baixa prioridade.

Para saber mais, visite Governança de tarefas do SageMaker HyperPod no Guia do desenvolvedor do Amazon SageMaker AI.

Agora disponível
A governança de tarefas do Amazon SageMaker HyperPod agora está disponível nas regiões da AWS Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon). Você pode usar a governança de tarefas do HyperPod sem custo adicional. Para saber mais, visite o Página do produto SageMaker HyperPod.

Experimente a governança de tarefas do HyperPod no Console de IA do Amazon SageMaker e envie comentários para AWS re:Submit para SageMaker ou por meio de seus contatos habituais do AWS Help.

Channy

PS Agradecimentos especiais a Nisha Nadkarniarquiteta sênior de soluções especializadas em IA generativa da AWS, por sua contribuição na criação de um ambiente de teste HyperPod.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *