À medida que os information facilities aumentam, escalam e escalam para atender às demandas de cargas de trabalho de inteligência synthetic (IA) e computação de alto desempenho (HPC), as redes enfrentam desafios crescentes. O aumento das falhas de rede, o congestionamento da malha e o balanceamento desigual de carga estão se tornando pontos críticos, ameaçando o desempenho e a confiabilidade. Esses problemas aumentam a latência closing e criam gargalos, prejudicando a eficiência de ambientes distribuídos em grande escala.


Para enfrentar esses desafios, o Extremely Ethernet Consortium (UEC) foi formado em 2023, liderando uma nova pilha Ethernet de alto desempenho projetada para esses ambientes exigentes. Em sua essência está um modelo escalonável de controle de congestionamento otimizado para latência em nível de microssegundos e para o tráfego complexo e de alto quantity de IA e HPC. Como membro diretor da UEC, a Cisco desempenha um papel basic na formação das tecnologias fundamentais que impulsionam a Ethernet da próxima geração.
Aumentando a confiabilidade e a eficiência em todas as camadas
Este weblog explora algumas das inovações UEC mais recentes e emergentes em toda a pilha de rede Extremely Ethernet (UE), desde a repetição da camada de hyperlink (LLR) e o controle de fluxo baseado em crédito (CBFC) na camada de hyperlink até o corte de pacotes na camada IP e pulverização de pacotes e recursos avançados de telemetria na camada de transporte.


Confiabilidade da nova tentativa da camada de hyperlink
O LLR opera na camada de enlace e foi projetado para aumentar a confiabilidade em enlaces de rede sensíveis. Esses hyperlinks são frequentemente vulneráveis a pequenas interrupções, como falhas intermitentes ou falhas de hyperlink, que podem degradar o desempenho e aumentar a latência closing. LLR fornece um mecanismo de retransmissão salto a salto onde os pacotes são armazenados em buffer no remetente até serem reconhecidos pelo destinatário. Pacotes perdidos ou corrompidos são retransmitidos seletivamente na camada de enlace, evitando o envolvimento de protocolos de nível superior e reduzindo a latência closing.


Controle de fluxo avançado
O controle de fluxo prioritário (PFC) permite a transmissão sem perdas da Camada 2, pausando o tráfego quando os buffers são preenchidos, mas requer grande espaço, reage lentamente e adiciona sobrecarga de configuração.
O CBFC supera essas deficiências com um sistema de crédito proativo: os remetentes só transmitem quando os destinatários confirmam o espaço disponível no buffer. Os créditos são rastreados de forma eficiente com contadores cíclicos e trocados por meio de atualizações leves, garantindo que os dados só sejam enviados quando puderem ser recebidos. Isso evita quedas, reduz os requisitos de buffer e mantém uma malha sem perdas com melhor eficiência e configuração mais simples, tornando-a excellent para redes de IA.
Recuperação de congestionamento mais inteligente
O corte de pacotes opera na camada IP e permite uma recuperação de congestionamento mais inteligente, retendo os cabeçalhos dos pacotes enquanto descarta a carga útil. Quando os switches detectam congestionamento, eles cortam e retornam o cabeçalho ao remetente (back-to-sender (BTS)) ou o encaminham para o destino (forward-to-destination (FTD)). Este mecanismo reduz retransmissões desnecessárias de pacotes inteiros, aliviando o congestionamento e melhorando a latência closing.


- O modo FTD permite que o destino detecte imediatamente pacotes incompletos e inicie a recuperação direcionada, como solicitar apenas dados ausentes. O pacote cortado normalmente tem apenas algumas dezenas de bytes e contém informações de controle essenciais para informar o receptor sobre a perda. Isso permite uma convergência mais rápida e retransmissões de baixa latência.
- O modo BTS envia uma notificação cortada de volta à fonte, permitindo detectar congestionamento naquela transmissão específica e retransmitir proativamente sem esperar por um tempo limite.
Ambas as técnicas permitem uma recuperação tranquila, sem tempos limite ou perdas, usando agendamento de retransmissão que controla as novas tentativas e, se necessário, as transfere para múltiplos caminhos alternativos de custo igual (ECMPs).
Balanceamento de carga flexível
O balanceamento de carga flexível com pulverização de pacotes usa o balanceamento de carga ECMP tradicional, que atribui cada fluxo a um caminho fixo usando seleção de porta baseada em hash, mas carece de controle de caminho e pode causar colisões. O UE introduz um campo de valor de entropia (EV) que dá aos terminais controle por pacote sobre a seleção do caminho.
Ao variar o EV, a pulverização de pacotes distribui dinamicamente os pacotes entre os ECMPs, evitando colisões persistentes e garantindo a utilização excellent da largura de banda. Isso reduz a polarização do tráfego, melhora o balanceamento de carga e utiliza totalmente a largura de banda da rede ao longo do tempo. O UE permite a entrega em ordem quando necessário, fixando o EV, ao mesmo tempo em que oferece suporte à pulverização adaptativa para outros fluxos.
Gerenciamento de congestionamento em tempo actual
O gerenciamento de congestionamento na camada de transporte UE combina controle avançado de congestionamento com telemetria refinada e mecanismos de reação rápida. Ao contrário da Ethernet tradicional, que depende de sinais reativos, como notificação explícita de congestionamento (ECN) ou quedas de pacotes que fornecem visibilidade limitada da localização e gravidade do congestionamento, o UEC adiciona métricas incorporadas em tempo actual na banda diretamente nos cabeçalhos dos pacotes por meio da sinalização de congestionamento (CSIG).
O CSIG implementa um modelo de comparação e substituição, permitindo que cada dispositivo ao longo do caminho atualize o pacote com informações de congestionamento mais graves sem aumentar o tamanho do cabeçalho. A placa de interface de rede (NIC) receptora então reflete essas informações de volta ao remetente, permitindo que os hosts finais executem controle de taxa adaptativo, seleção de caminho e balanceamento de carga mais cedo e com maior precisão.


A estrutura UE oferece suporte a pacotes marcados com CSIG para gerenciamento de congestionamento. À medida que os pacotes atravessam a rede, cada change atualiza a etiqueta CSIG se detectar um agravamento do congestionamento – rastreando a largura de banda disponível, a utilização e o atraso por salto. Hyperlinks muito utilizados são imediatamente codificados na tag e o receptor reflete esse mapa de congestionamento de volta ao remetente. Dentro de um único tempo de ida e volta (RTT), o remetente sabe quais hyperlinks estão congestionados e por quanto, permitindo a seleção proativa de caminho alternativo de ajuste de taxa.
A liderança da Cisco no futuro da Extremely Ethernet
A Cisco está liderando a evolução dos padrões UE, impulsionando inovações críticas para redes de IA e aprendizado de máquina (ML), à medida que a carga de trabalho de IA exige um aumento vertiginoso. À medida que as especificações da UE avançam, a Cisco permanece na vanguarda e garante que os clientes possam adotar recursos da UE, como controle de congestionamento, balanceamento de carga inteligente e recursos de transporte de última geração.
Rede preparada para o futuro com switches Cisco Nexus 9000 Sequence
Switches Cisco Nexus série 9000 são projetados para fornecer recursos Ethernet avançados para a infraestrutura de IA de próxima geração. Eles simplificam as implantações do dia 0 e otimizam as operações desde o primeiro dia com integração e capacidade de atualização perfeitas. Com os switches Nexus 9000, as organizações podem desbloquear todo o potencial da rede de IA de alto desempenho, flexível e preparada para o futuro.


Habilitando infraestrutura de IA escalável
À medida que as cargas de trabalho de IA e HPC redefinem as redes de information facilities, as inovações da UEC – impulsionadas pela liderança da Cisco – permitem que os information facilities sejam dimensionados com confiança; enfrentar os desafios de amanhã; e fornecer infraestrutura confiável e de alto desempenho para a period da IA.
Recursos Adicionais: