Escala infinita: a arquitetura por trás da superfábrica Azure AI


Hoje, estamos inaugurando o próximo native Fairwater dos datacenters de IA do Azure em Atlanta, Geórgia. Este datacenter construído especificamente está conectado ao nosso primeiro Native de Fairwater em Wisconsingerações anteriores de supercomputadores de IA e a pegada mais ampla do datacenter international do Azure para criar a primeira superfábrica de IA em escala planetária do mundo. Ao reunir o poder computacional de forma mais densa do que nunca, cada instalação de Fairwater é construída para atender com eficiência a demanda sem precedentes por computação de IA, expandir as fronteiras da inteligência do modelo e capacitar cada pessoa e organização no planeta para alcançar mais.

Para atender a essa demanda, reinventamos a forma como projetamos datacenters de IA e os sistemas que executamos dentro deles. Fairwater é diferente do modelo tradicional de datacenter em nuvem e usa uma única rede plana que pode integrar centenas de milhares das mais recentes GPUs NVIDIA GB200 e GB300 em um enorme supercomputador. Essas inovações são produto de décadas de experiência no projeto de datacenters e redes, bem como do aprendizado obtido no apoio a alguns dos maiores trabalhos de treinamento em IA do planeta.

Embora o projeto do datacenter Fairwater seja adequado para treinar a próxima geração de modelos de fronteira, ele também é construído tendo em mente a fungibilidade. O treinamento evoluiu de um único trabalho monolítico para uma série de cargas de trabalho com diferentes requisitos (como pré-treinamento, ajuste fino, aprendizado por reforço e geração de dados sintéticos). A Microsoft implantou um spine AI WAN dedicado para integrar cada web site Fairwater em um sistema elástico mais amplo que permite a alocação dinâmica de diversas cargas de trabalho de IA e maximiza a utilização da GPU do sistema combinado.

Abaixo, percorremos algumas das inovações técnicas interessantes que apoiam a Fairwater, desde a forma como construímos datacenters até a rede dentro e entre os locais.

Densidade máxima de computação

A infraestrutura moderna de IA está cada vez mais limitada pelas leis da física. A velocidade da luz é agora um gargalo importante em nossa capacidade de integrar aceleradores, computação e armazenamento com latência de alto desempenho. Fairwater foi projetado para maximizar a densidade da computação para minimizar a latência dentro e entre racks e maximizar o desempenho do sistema.

Uma das principais alavancas para a densidade de condução é melhorar o resfriamento em grande escala. Os servidores de IA nos datacenters de Fairwater estão conectados a um sistema de resfriamento em toda a instalação projetado para longevidade, com uma abordagem de circuito fechado que reutiliza o líquido continuamente após o enchimento inicial, sem evaporação. A água utilizada no abastecimento inicial é equivalente ao que 20 casas consomem num ano e só é substituída se a química da água indicar que é necessária (é projetada para mais de 6 anos), tornando-a extremamente eficiente e sustentável.

O resfriamento baseado em líquido também proporciona uma transferência de calor muito maior, permitindo-nos maximizar a potência em nível de rack e linha (~140kW por rack, 1.360 kW por linha) para compactar a computação da forma mais densa possível dentro do datacenter. O resfriamento de última geração também nos ajuda a maximizar a utilização dessa computação densa em operações em estado estacionário, permitindo que grandes trabalhos de treinamento sejam executados com desempenho em alta escala. Depois de percorrer um sistema de caminhos de placas frias em toda a frota de GPU, o calor é dissipado por uma das maiores plantas de resfriamento do planeta.

Escala infinita: a arquitetura por trás da superfábrica Azure AI
Resfriamento líquido direto no nível do rack.

Outra forma de impulsionar a densidade computacional é com um projeto de construção de datacenter de dois andares. Muitas cargas de trabalho de IA são muito sensíveis à latência, o que significa que os comprimentos dos cabos podem impactar significativamente o desempenho do cluster. Cada GPU em Fairwater está conectada a todas as outras GPUs, portanto, a abordagem de construção de datacenter de dois andares permite a colocação de racks em três dimensões para minimizar o comprimento dos cabos, o que, por sua vez, melhora a latência, a largura de banda, a confiabilidade e o custo.

Uma imagem da arquitetura de rede de dois andares
Arquitetura de rede de dois andares.

Energia de alta disponibilidade e baixo custo

Estamos inovando ao fornecer essa computação com energia confiável e econômica. A instalação de Atlanta foi selecionada tendo em mente a energia da rede elétrica resiliente e é capaz de atingir disponibilidade 4×9 a um custo 3×9. Ao garantir energia de rede altamente disponível, também podemos renunciar às abordagens tradicionais de resiliência para a frota de GPU (como geração no native, sistemas UPS e distribuição com fio duplo), gerando economia de custos para os clientes e tempo de colocação no mercado mais rápido para a Microsoft.

Também trabalhámos com os nossos parceiros industriais para co-desenvolver soluções de gestão de energia para mitigar as oscilações de energia criadas por empregos em grande escala, um desafio crescente na manutenção da estabilidade da rede à medida que a procura de IA aumenta. Isso inclui uma solução orientada por software program que introduz cargas de trabalho suplementares durante períodos de atividade reduzida, uma solução orientada por {hardware} onde as GPUs impõem seus próprios limites de energia e uma solução de armazenamento de energia no native para mascarar ainda mais as flutuações de energia sem utilizar excesso de energia.

Aceleradores e sistemas de rede de última geração

O design de datacenter de classe mundial da Fairwater é alimentado por servidores especialmente desenvolvidos, aceleradores de IA de última geração e novos sistemas de rede. Cada datacenter Fairwater executa um cluster único e coerente de GPUs NVIDIA Blackwell interconectadas, com uma arquitetura de rede avançada que pode escalar de forma confiável além dos limites da rede Clos tradicional com switches da geração atual (centenas de milhares de GPUs em uma única rede plana). Isso exigiu inovação em redes escaláveis, redes escaláveis ​​e protocolos de rede.

Em termos de expansão, cada rack de aceleradores de IA abriga até 72 GPUs NVIDIA Blackwell, conectadas through NVLink para comunicação de latência ultrabaixa dentro do rack. Os aceleradores Blackwell fornecem a mais alta densidade computacional disponível atualmente, com suporte para formatos numéricos de baixa precisão, como FP4, para aumentar o complete de FLOPS e permitir o uso eficiente da memória. Cada rack fornece 1,8 TB de largura de banda de GPU para GPU, com mais de 14 TB de memória em pool disponível para cada GPU.

Uma imagem de racks de GPU densamente povoados com rede orientada por aplicativos
Racks de GPU densamente povoados com rede orientada por aplicativos.

Esses racks usam redes escaláveis ​​para criar pods e clusters que permitem que todas as GPUs funcionem como um único supercomputador com contagens mínimas de saltos. Conseguimos isso com uma rede de back-end baseada em Ethernet de duas camadas que oferece suporte a tamanhos de cluster massivos com conectividade de GPU para GPU de 800 Gbps. Contar com um amplo ecossistema Ethernet e SONiC (Software program para Rede Aberta na Nuvem – que é nosso próprio sistema operacional para nossos switches de rede) também nos ajuda a evitar a dependência de fornecedores e gerenciar custos, já que podemos usar {hardware} comum em vez de soluções proprietárias.

Melhorias no corte de pacotes, pulverização de pacotes e telemetria de alta frequência são componentes essenciais de nossa rede de IA otimizada. Também estamos trabalhando para permitir um controle e otimização mais profundos das rotas da rede. Juntas, essas tecnologias oferecem controle avançado de congestionamento, detecção e retransmissão rápidas e balanceamento de carga ágil, garantindo desempenho ultraconfiável e de baixa latência para cargas de trabalho modernas de IA.

Escala planetária

Mesmo com estas inovações, as exigências computacionais para grandes trabalhos de formação (agora medidas em biliões de parâmetros) estão a ultrapassar rapidamente as restrições de energia e espaço de uma única instalação. Para atender a essas necessidades, construímos uma rede óptica AI WAN dedicada para ampliar as redes de expansão e expansão da Fairwater. Aproveitando nossa escala e décadas de experiência em hiperescala, entregamos mais de 120.000 novas milhas de fibra nos EUA no ano passado – expandindo o alcance e a confiabilidade da rede de IA em todo o país.

Com esse spine de alto desempenho e alta resiliência, podemos conectar diretamente diferentes gerações de supercomputadores em uma superfábrica de IA que excede as capacidades de um único native em locais geograficamente diversos. Isso permite que os desenvolvedores de IA aproveitem nossa rede mais ampla de datacenters de IA do Azure, segmentando o tráfego com base em suas necessidades em redes de expansão e expansão dentro de um web site, bem como em websites por meio do continente que abrange a AI WAN.

Este é um afastamento significativo do passado, onde todo o tráfego tinha que passar pela rede escalável, independentemente dos requisitos da carga de trabalho. Ela não apenas fornece aos clientes redes adequadas à finalidade em um nível mais granular, mas também ajuda a criar fungibilidade para maximizar a flexibilidade e a utilização de nossa infraestrutura.

Juntando tudo

A nova unidade de Fairwater em Atlanta representa o próximo salto na infraestrutura de IA do Azure e reflete nossa experiência na execução dos maiores trabalhos de treinamento em IA do planeta. Combina inovações revolucionárias em densidade computacional, sustentabilidade e sistemas de rede para atender com eficiência à enorme demanda por poder computacional que estamos vendo. Também se integra profundamente com outros datacenters de IA e com a plataforma Azure mais ampla para formar a primeira superfábrica de IA do mundo. Juntas, essas inovações fornecem uma infraestrutura flexível e adequada à finalidade que pode atender a todo o espectro de cargas de trabalho modernas de IA e capacitar cada pessoa e organização no planeta para alcançar mais. Para os nossos clientes, isto significa uma integração mais fácil da IA ​​em cada fluxo de trabalho e a capacidade de criar soluções inovadoras de IA que antes eram inatingíveis.

Saiba mais sobre como o Microsoft Azure pode ajudá-lo a integrar a IA para agilizar e fortalecer os ciclos de vida de desenvolvimento aqui.

Scott Guthrie é responsável por soluções e serviços de computação em nuvem em hiperescala, incluindo Azure, a plataforma de computação em nuvem da Microsoft, soluções generativas de IA, plataformas de dados e informações e segurança cibernética. Estas plataformas e serviços ajudam organizações em todo o mundo a resolver desafios urgentes e a impulsionar a transformação a longo prazo.

Nota do editor: Foi feita uma atualização para explicar mais claramente como otimizamos nossa rede.

Etiquetas: , , ,



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *