Em todos os setores, a inteligência synthetic (IA) está otimizando fluxos de trabalho, aumentando a eficiência, impulsionando a inovação – e estimulando investimentos em aceleradores, processadores de aprendizagem profunda e unidades de processamento neural (NPUs). Algumas organizações estão começando aos poucos com a geração aumentada de recuperação (RAG) para tarefas de inferência antes de expandirem progressivamente para acomodar um número maior de usuários. As empresas que lidam com grandes volumes de dados privados podem preferir configurar seus próprios clusters de treinamento para obter a precisão que os modelos personalizados criados com base em dados selecionados podem oferecer. Esteja você investindo em um pequeno cluster de IA com centenas de aceleradores ou em uma configuração massiva com milhares, você precisará de uma rede escalável para conectar todos eles.
A chave? Planejando e projetando essa rede adequadamente. Uma rede bem projetada garante que seus aceleradores atinjam o desempenho máximo, concluam trabalhos com mais rapidez e mantenham a latência closing no mínimo. Para acelerar a conclusão do trabalho, a rede precisa evitar o congestionamento ou, pelo menos, detectá-lo antecipadamente. A rede também precisa lidar com o tráfego sem problemas, mesmo durante cenários in-cast – em outras palavras, ela deve gerenciar o congestionamento imediatamente quando ele ocorrer.
É aí que entra a notificação quantizada de congestionamento do information heart (DCQCN). O conceito de DCQCN funciona de maneira best quando a notificação explícita de congestionamento (ECN) e o controle de fluxo prioritário (PFC) são usados em combinação. O ECN reage antecipadamente por fluxo, enquanto o PFC serve como uma medida de mitigação rígida para controlar o congestionamento e evitar quedas de pacotes. Nosso Modelo de rede de information heart para aplicações de IA/ML explica esses conceitos em detalhes. Também introduzimos Modelos de malha do Nexus Dashboard AI para facilitar a implantação de acordo com o modelo e as melhores práticas. Neste weblog, explicaremos como os switches Cisco Nexus série 9000 usam uma abordagem de balanceamento de carga dinâmico para lidar com o congestionamento.
Abordagens tradicionais e dinâmicas para balanceamento de carga
O balanceamento de carga tradicional usa multipath de custo igual (ECMP), uma estratégia de roteamento em que, uma vez que um fluxo escolhe um caminho, ele geralmente persiste durante esse fluxo. Quando vários fluxos seguem o mesmo caminho persistente, isso pode resultar no uso excessivo de alguns hyperlinks, enquanto outros são subutilizados, criando congestionamento nos hyperlinks superutilizados. Num cluster de formação em IA, isto pode aumentar os tempos de conclusão dos trabalhos e até levar a uma maior latência closing, comprometendo potencialmente o desempenho dos trabalhos de formação.

Como o estado da rede muda constantemente, o balanceamento de carga precisa ser dinâmico e orientado por suggestions em tempo actual da telemetria da rede ou das configurações do usuário. O balanceamento de carga dinâmico (DLB) permite que o tráfego seja distribuído de forma mais eficiente e dinâmica, considerando as mudanças na rede. Como resultado, o congestionamento pode ser evitado e o desempenho geral melhorado. Ao monitorar continuamente o estado da rede, ele pode ajustar o caminho de um fluxo, alternando para caminhos menos utilizados caso um deles fique sobrecarregado.

A série Nexus 9000 usa a utilização do hyperlink como parâmetro ao decidir como utilizar o multipath. Como a utilização do enlace é dinâmica, o reequilíbrio dos fluxos com base na utilização do caminho permite um encaminhamento mais eficiente e reduz o congestionamento. Ao comparar o ECMP e o DLB, entenda esta diferença basic: com o ECMP, depois que um fluxo quíntuplo é atribuído a um caminho específico, ele permanece nesse caminho, mesmo que o hyperlink fique congestionado ou muito utilizado. Por outro lado, o DLB começa colocando o fluxo quíntuplo no enlace menos utilizado. Se esse hyperlink se tornar mais utilizado, o DLB mudará dinamicamente o próximo conjunto de pacotes (conhecido como flowlet) para um hyperlink diferente e menos congestionado.

Para quem gosta de estar no controle, o DLB da série Nexus 9000 permite ajustar o equilíbrio de carga entre as portas de entrada e saída. Ao configurar manualmente os emparelhamentos entre as portas de entrada e saída, você pode obter maior flexibilidade e precisão no gerenciamento do tráfego. Isso permite gerenciar a carga nas portas de saída e reduzir o congestionamento. Essa abordagem pode ser implementada by way of interface de linha de comando (CLI) ou interface de programação de aplicativos (API), facilitando redes de grande escala e permitindo distribuição handbook de tráfego.

A série Nexus 9000 pode distribuir pacotes pela malha usando balanceamento de carga por pacote, enviando cada pacote por um caminho diferente para otimizar o fluxo de tráfego. Isto deve fornecer uma utilização best do hyperlink, pois os pacotes são distribuídos aleatoriamente. Entretanto, é importante observar que os pacotes podem chegar fora de ordem no host de destino. O host deve ser capaz de reordenar os pacotes ou tratá-los à medida que chegam, mantendo o processamento correto na memória.
Melhorias de desempenho a caminho
Olhando para o futuro, novos padrões melhorarão ainda mais o desempenho. Os membros do Extremely Ethernet Consortium, incluindo a Cisco, têm trabalhado para desenvolver padrões que abrangem muitas camadas da pilha ISO/OSI para aprimorar as cargas de trabalho de IA e de computação de alto desempenho (HPC). Aqui está o que isso pode significar para os switches da série Nexus 9000 e o que pode ser esperado.

Transporte escalável, melhor controle
Nosso foco está na criação de padrões para uma solução de transporte mais escalável, flexível, segura e integrada: Extremely Ethernet Transport (UET). O protocolo UET outline um novo método de transporte como sem conexão, o que significa que não requer um “handshake” (o termo para estabelecer um processo preliminar de configuração de conexão entre dispositivos de comunicação). O transporte começa quando uma conexão é estabelecida; a conexão é então descartada assim que o transporte for concluído. Essa abordagem permite melhor escalabilidade e latência reduzida e pode até reduzir o custo das placas de interface de rede (NICs).
O controle de congestionamento é integrado ao protocolo UET, direcionando as NICs para distribuir o tráfego por todos os caminhos disponíveis na malha. Opcionalmente, o UET pode usar telemetria leve (medições de atraso de ida e volta) para coletar informações sobre utilização e congestionamento do caminho da rede, entregando esses dados ao receptor. O corte de pacotes é outro recurso opcional que ajuda a detectar congestionamentos antecipadamente. Ele funciona enviando apenas as informações do cabeçalho dos pacotes que serão descartados devido ao buffer cheio. Isto fornece um método claro para o receptor notificar o remetente sobre congestionamento, ajudando a reduzir atrasos na retransmissão.
O UET é um transporte ponta a ponta onde os terminais (ou NICs) participam igualmente da rede no transporte. O transporte sem conexão se origina e termina no remetente e no destinatário. A rede para este transporte requer duas courses de tráfego: uma para tráfego de dados e outra para tráfego de controle, que é usada para confirmar que o tráfego de dados é recebido. Para o tráfego de dados, a notificação explícita de congestionamento (ECN) é usada para sinalizar o congestionamento no caminho. O tráfego de dados também pode ser transportado por uma rede sem perdas, permitindo um transporte flexível.
Pronto para adoção do UET e muito mais
Os switches Nexus série 9000 estão prontos para UEC, facilitando a adoção rápida e perfeita do novo protocolo UET com sua infraestrutura existente e nova. Todos os recursos obrigatórios são suportados hoje. Os recursos opcionais interessantes, como corte de pacotes, são suportados em produtos Nexus baseados em Cisco Silicon One. Recursos adicionais serão suportados nos switches da série Nexus 9000 no futuro.
Construa sua rede para obter o máximo de confiabilidade, controle preciso e desempenho máximo com o Nexus 9000 Collection. Você pode começar hoje mesmo habilitando o balanceamento de carga dinâmico para cargas de trabalho de IA. Então, assim que os padrões UEC forem ratificados, estaremos prontos para ajudá-lo a atualizar para NICs Extremely Ethernet, liberando todo o potencial da Extremely Ethernet e otimizando sua estrutura para preparar sua infraestrutura para o futuro. Pronto para otimizar seu futuro? Comece a construí-lo com o Nexus 9000 Collection.
Compartilhar: