Hoje estamos anunciando Serviço de computação paralela da AWS (AWS PCS)um novo serviço gerenciado que ajuda os clientes a configurar e gerenciar computação de alto desempenho (HPC) clusters para que eles executem perfeitamente suas simulações em praticamente qualquer escala na AWS. Usando o Slurm agendador, eles podem trabalhar em um ambiente HPC acquainted, acelerando o tempo para obter resultados em vez de se preocupar com infraestrutura.
Em novembro de 2018, introduzimos Cluster Paralelo da AWSuma ferramenta de gerenciamento de cluster de código aberto com suporte da AWS que ajuda você a implantar e gerenciar clusters HPC na Nuvem AWS. Com o AWS ParallelCluster, os clientes também podem criar e implantar rapidamente ambientes de computação HPC de prova de conceito e produção. Eles podem usar Interface de linha de comando do AWS ParallelCluster, API, Biblioteca Pythone a interface do usuário instalada a partir de pacotes de código aberto. Eles são responsáveis pelas atualizações, que podem incluir a desmontagem e a reimplantação de clusters. Muitos clientes, no entanto, nos pediram um serviço AWS totalmente gerenciado para eliminar trabalhos operacionais na construção e operação de ambientes HPC.
O AWS PCS simplifica os ambientes HPC gerenciados pela AWS e pode ser acessado por meio do Console de gerenciamento da AWSAWS SDK e Interface de linha de comando da AWS (AWS CLI). Seus administradores de sistema podem criar clusters Slurm gerenciados que usam suas configurações de computação e armazenamento, identidade e preferências de alocação de trabalho. O AWS PCS usa o Slurm, um agendador de trabalho altamente escalável e tolerante a falhas usado em uma ampla gama de clientes de HPC, para agendar e orquestrar simulações. Usuários finais, como cientistas, pesquisadores e engenheiros, podem fazer login em clusters do AWS PCS para executar e gerenciar trabalhos de HPC, usar software program interativo em desktops virtuais e acessar dados. Você pode trazer suas cargas de trabalho para o AWS PCS rapidamente, sem esforço significativo para portar código.
Você pode usar totalmente gerenciado BOM DCV desktops remotos para visualização remota e acesso à telemetria de trabalhos ou registros de aplicativos para permitir que especialistas gerenciem seus fluxos de trabalho de HPC em um só lugar.
O AWS PCS foi projetado para uma ampla gama de cargas de trabalho de engenharia e científicas, tradicionais e emergentes, com uso intensivo de computação ou dados, em áreas como dinâmica de fluidos computacional, modelagem climática, análise de elementos finitos, automação de projeto eletrônico e simulações de reservatórios, usando formas familiares de preparar, executar e analisar simulações e computações.
Introdução ao AWS Parallel Computing Service
Para experimentar o AWS PCS, você pode usar nosso tutorial para criar um cluster simples na documentação da AWS. Primeiro, você cria uma nuvem privada digital (VPC) com um modelo do AWS CloudFormation e armazenamento compartilhado em Sistema de arquivos elásticos da Amazon (Amazon EFS) dentro da sua conta para a região da AWS onde você testará o AWS PCS. Para saber mais, visite Criar uma VPC e Criar armazenamento compartilhado na documentação da AWS.
1. Crie um cluster
No Console AWS PCSescolher Criar clusterum recurso persistente para gerenciar recursos e executar cargas de trabalho.
Em seguida, insira o nome do seu cluster e escolha o tamanho do controlador do seu agendador Slurm. Você pode escolher Pequeno (até 32 nós e 256 trabalhos), Médio (até 512 nós e 8.192 trabalhos), ou Grande (até 2.048 nós e 16.384 trabalhos) para os limites das cargas de trabalho do cluster. No Rede seção, escolha a VPC criada, a sub-rede para iniciar o cluster e o grupo de segurança aplicado ao seu cluster.
Opcionalmente, você pode definir a configuração do Slurm, como um tempo ocioso antes que os nós de computação sejam reduzidos, um diretório de scripts Prolog e Epilog em nós de computação iniciados e um parâmetro de algoritmo de seleção de recursos usado pelo Slurm.
Escolher Criar cluster. Leva algum tempo para que o cluster seja provisionado.
2. Crie grupos de nós de computação
Depois de criar seu cluster, você pode criar grupos de nós de computação, uma coleção digital de Nuvem de computação elástica da Amazon (Amazon EC2) instâncias que o AWS PCS usa para fornecer acesso interativo a um cluster ou executar trabalhos em um cluster. Ao definir um grupo de nós de computação, você especifica características comuns, como tipos de instância do EC2, contagem mínima e máxima de instâncias, sub-redes VPC de destino, Imagem de máquina da Amazon (AMI)opção de compra e configuração de inicialização personalizada. Os grupos de nós de computação exigem um perfil de instância para passar um Gerenciamento de Identidade e Acesso (IAM) da AWS função para uma instância EC2 e um modelo de inicialização EC2 que o AWS PCS usa para configurar instâncias EC2 que ele inicia. Para saber mais, visite Crie um modelo de lançamento E Criar um perfil de instância na documentação da AWS.
Para criar um grupo de nós de computação no console, vá até seu cluster e escolha Grupos de nós de computação aba e o Criar grupo de nós de computação botão.
Você pode criar dois grupos de nós de computação: um grupo de nós de login para ser acessado por usuários finais e um grupo de nós de trabalho para executar trabalhos de HPC.
Para criar um grupo de nós de computação executando trabalhos de HPC, insira um nome de nó de computação e selecione um modelo de inicialização do EC2 criado anteriormente, um perfil de instância do IAM e sub-redes para iniciar nós de computação na VPC do seu cluster.
Em seguida, escolha seus tipos de instância EC2 preferidos para usar ao iniciar nós de computação e a contagem mínima e máxima de instâncias para dimensionamento. Eu escolhi o hpc6a.48xlarge
tipo de instância e limite de escala de até oito instâncias. Para um nó de login, você pode escolher uma instância menor, como uma c6i.xlarge
instância. Você também pode escolher o Sob demanda ou Ver Opção de compra do EC2 se o tipo de instância suportar. Opcionalmente, você pode escolher uma AMI específica.
Escolher Criar. Leva algum tempo para que o grupo de nós de computação seja provisionado. Para saber mais, visite Crie um grupo de nós de computação para executar trabalhos e Crie um grupo de nós de computação para nós de login na documentação da AWS.
3. Crie e execute seus trabalhos de HPC
Após criar seus grupos de nós de computação, você envia um trabalho para uma fila para executá-lo. O trabalho permanece na fila até que o AWS PCS o programe para ser executado em um grupo de nós de computação, com base na capacidade provisionada disponível. Cada fila é associada a um ou mais grupos de nós de computação, que fornecem as instâncias do EC2 necessárias para fazer o processamento.
Para criar uma fila no console, vá até seu cluster e escolha o Filas aba e o Criar fila botão.
Insira o nome da sua fila e escolha os grupos de nós de computação atribuídos à sua fila.
Escolher Criar e aguarde enquanto a fila está sendo criada.
Quando o grupo de nós de computação de login estiver ativo, você poderá usar Gerente de sistemas da AWS para se conectar à instância EC2 que ele criou. Vá para o Console Amazon EC2 e escolha sua instância EC2 do grupo de nós de computação de login. Para saber mais, visite Crie uma fila para enviar e gerenciar trabalhos e Conecte-se ao seu cluster na documentação da AWS.
Para executar um trabalho usando o Slurm, você prepara um script de envio que especifica os requisitos do trabalho e o envia para uma fila com o sbatch
comando. Normalmente, isso é feito a partir de um diretório compartilhado para que os nós de login e computação tenham um espaço comum para acessar arquivos.
Você também pode executar um trabalho de interface de passagem de mensagens (MPI) no AWS PCS usando Slurm. Para saber mais, visite Execute um único trabalho de nó com Slurm ou Execute um trabalho MPI multi-nó com Slurm na documentação da AWS.
Você pode conectar um desktop remoto NICE DCV totalmente gerenciado para visualização. Para começar, use o modelo CloudFormation de Receitas de HPC para repositório GitHub da AWS.
Neste exemplo, usei o OpenFOAM simulação de moto para calcular o fluxo constante em torno de uma motocicleta e do piloto. Esta simulação foi executada com 288 núcleos de três instâncias hpc6a. A saída pode ser visualizada no ParaView sessão após efetuar login na interface net da instância DCV.
Por fim, depois de concluir os trabalhos de HPC com os grupos de cluster e nós que você criou, você deve excluir os recursos que você criou para evitar cobranças desnecessárias. Para saber mais, visite Exclua seus recursos da AWS na documentação da AWS.
Coisas a saber
Aqui estão algumas coisas que você deve saber sobre esse recurso:
- Versões Slurm – O AWS PCS inicialmente oferece suporte ao Slurm 23.11 e oferece mecanismos projetados para permitir que os clientes atualizem suas principais versões do Slurm assim que novas versões forem adicionadas. Além disso, o AWS PCS foi projetado para atualizar automaticamente o controlador Slurm com versões de patch. Para saber mais, visite Versões Slurm na documentação da AWS.
- Reservas de Capacidade – Você pode reservar capacidade EC2 em uma Zona de Disponibilidade específica e por uma duração específica usando Reservas de Capacidade On-Demand para garantir que você tenha a capacidade de computação necessária disponível quando precisar. Para saber mais, visite Reservas de Capacidade na documentação da AWS.
- Sistemas de arquivos de rede – Você pode anexar volumes de armazenamento de rede onde dados e arquivos podem ser gravados e acessados, incluindo Amazon FSx para NetApp ONTAP, Amazon FSx para OpenZFSe Cache de arquivo da Amazon assim como Amazon EFS e Amazon FSx para Lustre. Você também pode usar volumes autogerenciados, como servidores NFS. Para saber mais, visite Sistemas de arquivos de rede na documentação da AWS.
Agora disponível
Serviço de computação paralela da AWS agora está disponível nas regiões Leste dos EUA (Norte da Virgínia), Leste dos EUA da AWS (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Europa (Frankfurt), Europa (Irlanda), Europa (Estocolmo).
O AWS PCS inicia todos os recursos na sua conta AWS. Você será cobrado adequadamente por esses recursos. Para obter mais informações, consulte o Página de preços do AWS PCS.
Experimente e envie um suggestions para AWS re:Put up ou por meio de seus contatos habituais de suporte da AWS.
— Channy
PS Agradecimentos especiais a Matthew Vaughnum dos principais defensores dos desenvolvedores na AWS por sua contribuição na criação de um ambiente de testes de HPC.