Rede da Nvidia Rubin dobra largura de banda



Rede da Nvidia Rubin dobra largura de banda

No início desta semana, Nvidia surpresa-anunciado sua nova arquitetura Vera Rubin (sem relação com a recentemente revelada telescópio) no Feira de Eletrônicos de Consumo em Las Vegas. A nova plataforma, prevista para chegar aos clientes ainda este ano, é anunciada para oferecer uma redução de dez vezes nos custos de inferência e uma redução de quatro vezes no número de GPU seria necessário para treinar certos modelos, em comparação com os da Nvidia Blackwell arquitetura.

O suspeito normal para melhorar o desempenho é a GPU. Na verdade, a nova GPU Rubin possui 50 quatrilhões de operações de ponto flutuante por segundo (petaFLOPS) de computação de 4 bits, em comparação com 10 petaflops na Blackwell, pelo menos para cargas de trabalho de inferência baseadas em transformadores, como grandes modelos de linguagem.

No entanto, focar apenas na GPU perde o panorama geral. Há um whole de seis novos chips nos computadores baseados em Vera-Rubin: a CPU Vera, a GPU Rubin e quatro chips de rede distintos. Para obter vantagens de desempenho, os componentes precisam funcionar em conjunto, diz Gilad Shainervice-presidente sênior de redes da Nvidia.

“A mesma unidade conectada de maneira diferente proporcionará um nível de desempenho completamente diferente”, diz Shainer. “É por isso que chamamos isso de co-design extremo.”

“Computação em rede” expandida

As cargas de trabalho de IA, tanto de treinamento quanto de inferência, são executadas em um grande número de GPUs simultaneamente. “Dois anos atrás, a inferência period executada principalmente em uma única GPU, uma única caixa, um único servidor”, diz Shainer. “Neste momento, a inferência está se tornando distribuída e não está apenas em um rack. Ela irá passar por racks.”

Para acomodar essas tarefas amplamente distribuídas, o maior número possível de GPUs precisa funcionar efetivamente como uma só. Este é o objetivo do chamado rede de expansão: a conexão de GPUs em um único rack. A Nvidia lida com essa conexão com seu chip de rede NVLink. A nova linha inclui o change NVLink6, com o dobro da largura de banda do versão anterior (3.600 gigabytes por segundo para conexões GPU a GPU, em comparação com 1.800 GB/s para change NVLink5).

Além da duplicação da largura de banda, os chips de expansão também incluem o dobro do número de SerDes – serializadores/desserializadores (que permitem que os dados sejam enviados através de menos fios) e um número expandido de cálculos que podem ser feitos dentro da rede.

“A rede em expansão não é realmente a rede em si”, diz Shainer. “É uma infraestrutura de computação, e algumas das operações de computação são realizadas na rede… no change.”

A justificativa para transferir algumas operações das GPUs para a rede é dupla. Primeiro, permite que algumas tarefas sejam realizadas apenas uma vez, em vez de cada GPU ter que executá-las. Um exemplo comum disso é a operação de redução whole no treinamento de IA. Durante o treinamento, cada GPU calcula uma operação matemática chamada gradiente em seu próprio lote de dados. Para treinar o modelo corretamente, todas as GPUs precisam saber o gradiente médio calculado em todos os lotes. Em vez de cada GPU enviar seu gradiente para todas as outras GPUs, e cada uma delas calcular a média, isso economiza tempo e energia computacional para que essa operação aconteça apenas uma vez, dentro da rede.

Uma segunda justificativa é esconder o tempo que leva para transporte dados entre GPUs, fazendo cálculos neles durante o trajeto. Shainer explica isso por meio de uma analogia com uma pizzaria tentando acelerar o tempo necessário para entregar um pedido. “O que você poderia fazer se tivesse mais fornos ou mais trabalhadores? Isso não ajuda você; você pode fazer mais pizzas, mas o tempo para uma única pizza permanecerá o mesmo. Alternativamente, se você pegar o forno e colocá-lo em um carro, então vou assar a pizza enquanto viajo até você, é aqui que economizo tempo. É isso que fazemos.”

A computação em rede não é novidade nesta iteração da arquitetura da Nvidia. Na verdade, ele está em uso comum desde cerca de 2016. Mas essa iteração adiciona uma gama mais ampla de cálculos que podem ser feitos dentro da rede para acomodar diferentes cargas de trabalho e diferentes formatos numéricos, diz Shainer.

Dimensionando e ampliando

O restante dos chips de rede incluídos na arquitetura Rubin compreendem a chamada rede escalável. Esta é a parte que conecta diferentes racks entre si dentro do knowledge middle.

Aqueles fichas estão o ConnectX-9, uma placa de interface de rede; o BlueField-4, a chamada unidade de processamento de dados, que é emparelhada com duas CPUs Vera e uma placa ConnectX-9 para descarregar tarefas de rede, armazenamento e segurança; e finalmente o Spectrum-6 Ethernet interruptor, que usa óptica co-embalada para enviar dados entre racks. O change Ethernet também duplica a largura de banda das gerações anteriores, ao mesmo tempo que minimiza o jitter – a variação nos tempos de chegada dos pacotes de informação.

“A infraestrutura de expansão precisa garantir que essas GPUs possam se comunicar bem para executar um computação distribuída “Jitter significa perder dinheiro”, diz Shainer.

Nenhum dos novos chips da Nvidia é especificamente dedicado à conexão entre centros de dadosdenominado ‘“escala transversal”. Mas Shainer argumenta que esta é a próxima fronteira. “Não para por aqui, porque estamos vendo demandas para aumentar o número de GPUs em um knowledge middle”, afirma. “100.000 GPUs não são mais suficientes para algumas cargas de trabalho e agora precisamos conectar vários knowledge facilities.”

Dos artigos do seu website

Artigos relacionados na net

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *