Hoje, estamos anunciando suporte para Adaptador de tecido elástico (EFA) e Armazenamento NVIDIA GPUDirect (GDS) sobre Amazon FSx para Lustre. EFA é uma interface de rede para instâncias do Amazon EC2 que possibilita executar aplicações que exigem altos níveis de comunicação entre nós em escala. GDS é uma tecnologia que cria um caminho direto de dados entre o armazenamento native ou remoto e a memória GPU. Com essas melhorias, o Amazon FSx for Lustre com suporte a EFA/GDS oferece uma taxa de transferência por cliente até 12 vezes maior (até 1.200 Gbps) em comparação com a versão anterior do FSx for Lustre.
Você pode usar o FSx for Lustre para criar e executar os aplicativos que exigem mais desempenho, como treinamento de aprendizagem profunda, descoberta de medicamentos, modelagem financeira e desenvolvimento de veículos autônomos. À medida que os conjuntos de dados crescem e novas tecnologias surgem, você pode adotar instâncias de GPU e HPC cada vez mais poderosas, como o Amazon EC2 P5, Trn1e Hpc7a. Até agora, ao acessar sistemas de arquivos FSx for Lustre, o uso da rede TCP tradicional limitava a taxa de transferência a 100 Gbps para instâncias de clientes individuais. Essa adoção está impulsionando a necessidade dos sistemas de arquivos FSx for Lustre fornecerem o desempenho necessário para utilizar de maneira very best a crescente largura de banda da rede dessas instâncias EC2 de ponta ao acessar grandes conjuntos de dados.
Com suporte a EFA e GDS no FSx for Lustre, agora você pode atingir uma taxa de transferência de até 1.200 Gbps por instância do cliente (doze vezes mais taxa de transferência do que antes) ao usar instâncias de GPU P5 e NVIDIACUDA em seus aplicativos.
Com esse novo recurso, você pode utilizar totalmente a largura de banda da rede das instâncias de computação mais poderosas e acelerar seu aprendizado de máquina (ML) e HPC cargas de trabalho. O EFA melhora o desempenho ignorando o sistema operacional e usando o Protocolo AWS Scalable Dependable Datagram (SRD) para otimizar a transferência de dados. O GDS melhora ainda mais o desempenho, permitindo a transferência direta de dados entre o sistema de arquivos e a memória da GPU, ignorando a CPU e eliminando cópias redundantes da memória.
Vamos ver como isso funciona na prática.
Criar um sistema de arquivos Amazon FSx for Lustre com EFA habilitado
Para começar, no Console Amazon FSxeu escolho Criar sistema de arquivos e então Amazon FSx para Lustre.
Eu insiro um nome para o sistema de arquivos. No Tipo de implantação e armazenamento seção, eu seleciono Persistente, SSD e o novo com EFA ativado opção. eu seleciono 1000MB/s/TiB no Taxa de transferência por unidade de armazenamento seção. Com essas configurações, insiro 4,8 TiB para Capacidade de armazenamentoque é o mínimo compatível com essas configurações.
Para networking, eu uso o nuvem privada digital (VPC) padrão e um Grupo de segurança habilitado para EFA. Deixo todas as outras opções com seus valores padrão.
Reviso todas as opções e prossigo para criar o sistema de arquivos. Após alguns minutos, o sistema de arquivos está pronto para ser usado.
Montar um sistema de arquivos Amazon FSx for Lustre com EFA habilitado em uma instância do Amazon EC2
No Console Amazon EC2eu escolho Iniciar instânciainsira um nome para a instância e selecione Ubuntu Amazon Machine Picture (AMI). Para Tipo de instânciaeu seleciono trn1.32xgrande.
Em Configurações de redeedito as configurações padrão e seleciono a mesma sub-rede usada pelo sistema de arquivos FSx Lustre. Em Firewall (grupos de segurança)seleciono três grupos de segurança existentes: o grupo de segurança habilitado para EFA usado pelo sistema de arquivos FSx for Lustre, o grupo de segurança padrão e um grupo de segurança que fornece acesso Safe Shell (SSH).
Em Configuração de rede avançadaeu seleciono ENA e EFA como Tipo de interface. Sem essa configuração, a instância usaria a rede TCP tradicional e a conexão com o sistema de arquivos FSx for Lustre ainda estaria limitada a 100 Gbps em taxa de transferência.
Para ter mais rendimento, posso adicionar mais interfaces de rede EFA, dependendo do tipo de instância.
Eu executo a instância e, quando ela estiver pronta, eu me conecto usando Conexão de instância EC2 e siga as instruções para instalando o cliente Lustre no Guia do usuário do FSx for Lustre e configurando clientes EFA.
Então, sigo as instruções para montando um sistema de arquivos FSx for Lustre a partir de uma instância EC2.
Eu crio uma pasta para usar como ponto de montagem:
Eu seleciono o sistema de arquivos no console FSx e procuro o Nome DNS e Nome da montagem. Usando esses valores, monto o sistema de arquivos:
O EFA é usado automaticamente quando você acessa um sistema de arquivos habilitado para EFA a partir de instâncias de cliente que suportam EFA e usam o Lustre versão 2.15 ou superior.
Coisas para saber
O suporte EFA e GDS está disponível hoje sem custo adicional em novos Amazon FSx para Lustre sistemas de arquivos em todos Regiões da AWS onde persistente 2 é oferecido. O FSx for Lustre usa EFA automaticamente quando os clientes acessam um sistema de arquivos habilitado para EFA a partir de instâncias de cliente que oferecem suporte a EFA, sem exigir nenhuma configuração adicional. Para obter uma lista de instâncias de cliente EC2 compatíveis com EFA, consulte tipos de instância compatíveis no Guia do usuário do Amazon EC2. Esse tabela de especificações de rede descreve larguras de banda de rede e suporte EFA para tipos de instância na categoria de computação acelerada.
Para usar instâncias habilitadas para EFA com sistemas de arquivos FSx for Lustre, você deve usar clientes Lustre 2.15 no Ubuntu 22.04 com kernel 6.8 ou superior.
Observe que suas instâncias de cliente e seus sistemas de arquivos devem estar localizados na mesma sub-rede do seu Conexão da Amazon Digital Personal Cloud (Amazon VPC).
O GDS é automaticamente suportado em sistemas de arquivos habilitados para EFA. Para usar o GDS com seus sistemas de arquivos FSx for Lustre, você precisa do Pacote NVIDIA Compute Unified System Structure (CUDA)o driver NVIDIA de código abertoe o Driver de armazenamento NVIDIA GPUDirect instalado em sua instância do cliente. Esses pacotes vêm pré-instalados no AWS Deep Studying AMI. Você pode então usar seu aplicativo habilitado para CUDA para usar o armazenamento GPUDirect para transferência de dados entre seu sistema de arquivos e GPUs.
Ao planejar sua implementação, observe que os sistemas de arquivos habilitados para EFA têm incrementos de capacidade mínima de armazenamento maiores do que os sistemas de arquivos não habilitados para EFA. Por exemplo, se você escolher o nível de taxa de transferência de 1.000 MB/s/TiB, a capacidade mínima de armazenamento para sistemas de arquivos habilitados para EFA começa em 4,8 TiB em comparação com 1,2 TB para sistemas de arquivos FSx for Lustre que não habilitam EFA. Se você deseja migrar suas cargas de trabalho existentes, você pode usar AWSDataSync para mover seus dados de um sistema de arquivos existente para um novo que suporte EFA e GDS.
Para máxima flexibilidade, o FSx for Lustre mantém compatibilidade com cargas de trabalho EFA e não EFA. Ao acessar um sistema de arquivos habilitado para EFA, o tráfego de instâncias de clientes não EFA flui automaticamente pela rede TCP/IP tradicional usando Adaptador de rede elástica (ENA)permitindo acesso contínuo para todas as cargas de trabalho sem qualquer configuração adicional.
Para saber mais sobre o suporte EFA e GDS no FSx for Lustre, incluindo instruções detalhadas de configuração e práticas recomendadas, visite o Documentação do Amazon FSx for Lustre. Comece hoje mesmo e experimente o desempenho de armazenamento mais rápido disponível para suas instâncias de GPU na nuvem.
– Danilo
Atualização 27/11: postagem atualizada para refletir a taxa de transferência de 12x