NVIDIA GB300 NVL72: infraestrutura de IA de próxima geração em escala


A Microsoft entrega o primeiro cluster de produção em escala com mais de 4.600 NVIDIA GB300 NVL72, apresentando GPUs NVIDIA Blackwell Extremely conectadas por meio da rede NVIDIA InfiniBand de próxima geração.

A Microsoft entrega o primeiro cluster de produção em escala com mais de 4.600 NVIDIA GB300 NVL72, com GPUs NVIDIA Blackwell Extremely conectadas por meio da rede NVIDIA InfiniBand de próxima geração. Este cluster é o primeiro de muitos, à medida que escalamos para centenas de milhares de GPUs Blackwell Extremely implantado nos datacenters de IA da Microsoft globalmente, refletindo nosso compromisso contínuo em redefinir a infraestrutura de IA e a colaboração com a NVIDIA. Os clusters de grande escala com GPUs Blackwell Extremely permitirão o treinamento de modelos em semanas, em vez de meses, proporcionando alto rendimento para cargas de trabalho de inferência. Também estamos desbloqueando modelos maiores e mais poderosos e seremos os primeiros a oferecer suporte a modelos de treinamento com centenas de trilhões de parâmetros.

Isso foi possível por meio da colaboração entre {hardware}, sistemas, cadeia de suprimentos, instalações e diversas outras disciplinas, bem como com a NVIDIA.

O lançamento do supercluster NVIDIA GB300 NVL72 pelo Microsoft Azure é um passo emocionante no avanço da IA ​​de fronteira. Este sistema coprojetado fornece o primeiro cluster de produção GB300 em escala do mundo, fornecendo o mecanismo de supercomputação necessário para que o OpenAI atenda modelos multitrilhões de parâmetros. Isso estabelece o novo padrão definitivo para computação acelerada.

Ian Buck, vice-presidente de hiperescala e computação de alto desempenho da NVIDIA

De NVIDIA GB200 a GB300: um novo padrão em desempenho de IA

No início deste ano, Azure introduziu máquinas virtuais (VMs) ND GB200 v6acelerado pela arquitetura Blackwell da NVIDIA. Eles rapidamente se tornaram a espinha dorsal de algumas das cargas de trabalho de IA mais exigentes do setor, inclusive para organizações como OpenAI e Microsoft, que já usam clusters massivos de GB200 NVL2 no Azure para treinar e implantar modelos de fronteira.

Agora, com as VMs ND GB300 v6, o Azure está elevando o nível novamente. Essas VMs são otimizadas para modelos de raciocínio, sistemas de IA de agente e IA generativa multimodal. Construído em um sistema em escala de rack, cada rack possui 18 VMs com um whole de 72 GPUs:

  • 72 GPUs NVIDIA Blackwell Extremely (com 36 CPUs NVIDIA Grace).
  • 800 gigabits por segundo (Gbp/s) por largura de banda escalável entre racks de GPU por meio da próxima geração NVIDIA Quantum-X800 InfiniBand (2x GB200 NVL72).
  • 130 terabytes (TB) por segundo de largura de banda NVIDIA NVLink no rack.
  • 37 TB de memória rápida.
  • Até 1.440 petaflops (PFLOPS) de desempenho do Tensor Core FP4.
Close do servidor Azure com NVIDIA GB300 NVL72, com GPUs Blackwell Ultra.

Construindo para supercomputação de IA em escala

Construir infraestrutura para IA de ponta exige que reimaginemos cada camada da pilha – computação, memória, rede, datacenters, refrigeração e energia – como um sistema unificado. As VMs ND GB300 v6 são uma representação clara dessa transformação, resultante de anos de colaboração entre silício, sistemas e software program.

No nível do rack, o NVLink e o NVSwitch reduzem as restrições de memória e largura de banda, permitindo até 130 TB por segundo de transferência de dados intra-rack, conectando um whole de 37 TB de memória rápida. Cada rack se torna uma unidade fortemente acoplada, proporcionando maior rendimento de inferência com latências reduzidas em modelos maiores e janelas de contexto mais longas, capacitando os sistemas de IA agênticos e multimodais a serem mais responsivos e escaláveis ​​do que nunca.

Para escalar além do rack, o Azure implanta uma arquitetura full-tree e sem bloqueio usando NVIDIA Quantum-X800 Gbp/s InfiniBand, a estrutura de rede mais rápida disponível atualmente. Isso garante que os clientes possam ampliar o treinamento de modelos ultragrandes de forma eficiente para dezenas de milhares de GPUs com sobrecarga mínima de comunicação, proporcionando assim melhor rendimento de treinamento de ponta a ponta. A redução da sobrecarga de sincronização também se traduz na utilização máxima de GPUs, o que ajuda os pesquisadores a iterar com mais rapidez e custos mais baixos, apesar da natureza exigente de computação das cargas de trabalho de treinamento de IA. A pilha coprojetada do Azure, incluindo protocolos personalizados, bibliotecas coletivas e computação em rede, garante que a rede seja altamente confiável e totalmente utilizada pelos aplicativos. Recursos como o NVIDIA SHARP aceleram as operações coletivas e duplicam a largura de banda efetiva, realizando cálculos matemáticos no swap, tornando o treinamento e a inferência em larga escala mais eficientes e confiáveis.

Os sistemas de resfriamento avançados do Azure usam unidades de troca de calor autônomas e resfriamento de instalações para minimizar o uso de água e, ao mesmo tempo, manter a estabilidade térmica para clusters densos e de alto desempenho, como o GB300 NVL72. Também continuamos a desenvolver e implantar novos modelos de distribuição de energia capazes de suportar a alta densidade de energia e o balanceamento de carga dinâmico exigidos pela classe VM ND GB300 v6 de clusters de GPU.

Além disso, nossas pilhas de software program reprojetadas para armazenamento, orquestração e agendamento são otimizadas para usar totalmente a infraestrutura de computação, rede, armazenamento e datacenter em escala de supercomputação, oferecendo níveis de desempenho sem precedentes com alta eficiência aos nossos clientes.

Blade de servidor em rack com NVIDIA GB300 NVL72 na infraestrutura de IA do Azure.

Olhando para frente

A Microsoft investe em infraestrutura de IA há anos, para permitir uma rápida capacitação e transição para a tecnologia mais recente. É também por isso Azul está posicionada de forma única para fornecer infraestrutura GB300 NVL72 em escala de produção em um ritmo rápido, para atender às demandas atuais de IA de ponta.

À medida que o Azure continua a aumentar as implementações mundiais do GB300, os clientes podem esperar treinar e implementar novos modelos numa fração do tempo em comparação com as gerações anteriores. As VMs ND GB300 v6 v6 estão preparadas para se tornarem o novo padrão para infraestrutura de IA, e o Azure tem orgulho de liderar o caminho, apoiando os clientes no avanço do desenvolvimento de IA de ponta.

Fique ligado para mais atualizações e benchmarks de desempenho à medida que o Azure expande a implantação de produção do NVIDIA GB300 NVL72 globalmente.

Leia mais da NVIDIA aqui.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *