Acelerando clusters de IA nativos de Ethernet com aceleradores de IA Intel® Gaudi® 3 e Cisco Nexus 9000


As empresas modernas enfrentam desafios significativos de infraestrutura, pois os grandes modelos de linguagem (LLMs) exigem o processamento e a movimentação de grandes volumes de dados, tanto para treinamento quanto para inferência. Mesmo com os processadores mais avançados limitados pelas capacidades da sua infra-estrutura de suporte, a necessidade de redes robustas e de alta largura de banda tornou-se imperativa. Para organizações que pretendem utilizar cargas de trabalho de IA de alto desempenho de forma eficiente, um spine de rede escalável e de baixa latência é essential para maximizar a utilização do acelerador e minimizar recursos dispendiosos e ociosos.

Switches Cisco Nexus série 9000 para cargas de trabalho de IA/ML

Os switches Cisco Nexus 9000 Sequence oferecem a estrutura de comutação de alta raiz e baixa latência exigida pelas cargas de trabalho de IA/ML. Para acelerador Intel® Gaudi® 3 AI1 implantações, a Cisco validou switches e configurações específicas do Nexus 9000 para garantir o desempenho perfect.

O Nexus 9364E-SG2 (Figura 1), por exemplo, é o principal change de rede AI da Cisco, equipado com o Silicon One G200 ASIC. Em um formato compacto 2RU, ele oferece:

  • 64 portas densas de 800 GbE (ou 128 x 400 GbE/256 x 200 GbE/512 x 100 GbE por meio de breakouts)
  • Largura de banda agregada de 51,2 Tbps para tecidos sem bloqueio de lombada de folha
  • Buffer de pacotes on-die compartilhado de 256 MBo que é basic para absorver os picos de tráfego sincronizados característicos das operações coletivas em treinamento distribuído
  • Arquitetura 512 de alta raiz que reduz o número de níveis de comutação necessários, diminuindo a latência e simplificando o design da malha
  • Pronto para Extremely Ethernet: A Cisco é membro fundador do Extremely Ethernet Consortium (UEC) e os switches Nexus 9000 são compatíveis com especificações UEC emergentes
Acelerando clusters de IA nativos de Ethernet com aceleradores de IA Intel® Gaudi® 3 e Cisco Nexus 9000Acelerando clusters de IA nativos de Ethernet com aceleradores de IA Intel® Gaudi® 3 e Cisco Nexus 9000
Figura 1. Cisco Nexus 9364E-SG2: otimizado para escalabilidade e conectividade aberta, com suporte para implantações do acelerador Intel®️ Gaudi®️ 3 AI

O acelerador de IA Intel Gaudi 3 atende à necessidade de sistemas de IA abertos e escaláveis. Ele foi projetado para fornecer desempenho de knowledge heart de última geração para cargas de trabalho de IA, incluindo aplicativos generativos como LLMs, modelos de difusão e modelos multimodais. O acelerador Intel Gaudi 3 demonstra melhorias significativas em relação às gerações anteriores, oferecendo até 4x o desempenho de computação de IA para cargas de trabalho Mind Floating Level de 16 bits (BF16) e um aumento de 1,5x na largura de banda da memória em comparação com o processador Intel Gaudi 2.

Um diferencial importante é sua infraestrutura de rede: cada acelerador Intel Gaudi 3 AI integra 24 portas Ethernet de 200 GbE, suportando expansão de sistema em larga escala com protocolos Ethernet padrão. Essa abordagem elimina a dependência de tecnologias de rede proprietárias e fornece o dobro da largura de banda de rede em comparação com o acelerador Intel Gaudi 2, permitindo que as organizações construam clusters de alguns nós até vários milhares de forma contínua.

Uma solução integrada com alto desempenho, escalabilidade e abertura

Os switches Cisco Nexus 9364E-SG2 e os transceptores OSFP-800G-DR8 são certificados para oferecer suporte aos aceleradores Intel Gaudi 3 AI em configurações de expansão para treinamento LLM, inferência e cargas de trabalho generativas de IA.

Os principais destaques técnicos da arquitetura validada incluem:

  • Conectividade de alta velocidade e sem bloqueio: Interfaces de 256 x 200 Gbps em switches Cisco Nexus 9364E-SG2 permitem design de rede de alta velocidade e sem bloqueio para interconexão de aceleradores Intel Gaudi 3
  • Tecido sem perdas: Suporte whole para RDMA over Converged Ethernet versão 2 (RoCEv2) com Precedence Movement Management (PFC) evita a perda de pacotes devido ao congestionamento, melhorando assim os tempos de conclusão de trabalhos distribuídos
  • Operações simplificadas: O Nexus Dashboard permite configurar aceleradores Intel Gaudi 3 AI para redes escaláveis ​​usando o tipo de malha AI integrada. Ele também oferece modelos para personalizações adicionais e uma plataforma única de operações para todas as redes que acessam um cluster de IA.

Cisco Clever Packet Movement para otimizar o tráfego de IA

As cargas de trabalho de IA geram padrões de tráfego diferentes dos aplicativos empresariais tradicionais: rajadas massivas e sincronizadas, “fluxos elefantes” e comunicação contínua de GPU para GPU que podem sobrecarregar as abordagens de rede convencionais. A Cisco aborda esses desafios com Fluxo de pacotes inteligente Ciscouma estrutura avançada de gerenciamento de tráfego integrada ao NX-OS.

O Clever Packet Movement incorpora diversas estratégias de balanceamento de carga projetadas para malhas de IA:

  • Balanceamento de carga dinâmico (baseado em flowlet): Distribuição de tráfego em tempo actual com base na telemetria de utilização do hyperlink
  • Balanceamento de carga por pacote: Pulverização de pacotes em vários caminhos para máxima eficiência de rendimento
  • Multicaminho de custo ponderado (WCMP): Ponderação de caminho inteligente combinada com Dynamic Load Balancing (DLB) para topologias assimétricas
  • Balanceamento de carga baseado em políticas: Atribui estratégias específicas de tratamento de tráfego para cargas de trabalho mistas com base em ACLs, marcações DHCP ou cabeçalhos RoCEv2, criando eficiência personalizada para diversas necessidades

Esses recursos trabalham juntos para minimizar tempo de conclusão do trabalho—a métrica crítica que determina a rapidez com que seus modelos de IA são treinados e com que eficiência seus pipelines de inferência respondem.

Operações unificadas com Nexus Dashboard

A implantação e operação da infraestrutura de IA em escala requer visibilidade e outros recursos que vão muito além do monitoramento de rede tradicional. O Cisco Nexus Dashboard serve como plataforma de gerenciamento centralizado para malhas de IA, fornecendo visibilidade RoCEv2 de ponta a ponta e modelos integrados para provisionamento de malha de IA.

Os principais recursos operacionais do Cisco Nexus Dashboard incluem:

  • Análise de congestionamento: Pontuação de congestionamento em tempo actual, estatísticas de controle de fluxo prioritário e notificação explícita de congestionamento (PFC/ECN) e detecção de microburst
  • Detecção de anomalias: Identificação proativa de gargalos de desempenho com sugestões de correção
  • Observabilidade do trabalho de IA: Visibilidade ponta a ponta das cargas de trabalho de IA, da rede às GPUs
  • Informações sobre sustentabilidade: Recomendações de monitoramento e otimização do consumo de energia

“A IA em escala exige eficiência computacional e estrutura de rede de IA de alto desempenho. O acelerador de IA Intel® Gaudi® 3 combinado com o switching Cisco Nexus 9000 oferece uma solução aberta e otimizada que permite aos clientes criar clusters de inferência LLM em escala com desempenho econômico intransigente.”
—Anil Nanduri, vice-presidente de entrada no mercado e gerenciamento de produtos de IA, Intel

Uma infraestrutura escalável, compatível e pronta para o futuro

Os switches Cisco Nexus 9000 emparelhados com aceleradores Intel Gaudi 3 AI fornecem às empresas uma rede e um ambiente de computação seguro, aberto e pronto para o futuro. Essa combinação de tecnologias permite que as organizações implantem clusters de IA escalonáveis ​​e de alto desempenho que atendam aos requisitos de carga de trabalho atuais e emergentes.

Para obter mais informações ou para avaliar como essa arquitetura de referência pode ser adaptada às necessidades da sua organização, consulte as especificações para Switches Cisco Nexus série 9300 e Aceleradores de IA Intel Gaudi 3.

Recursos adicionais:

1 Intel, o logotipo da Intel e Gaudi são marcas registradas da Intel Company ou de suas subsidiárias.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *