O futuro da infraestrutura de IA em nuvem: por dentro da arquitetura UnifiedBus da Huawei


O desafio de construir uma infraestrutura eficiente de IA em nuvem sempre foi uma questão de escala – não apenas adicionar mais servidores, mas fazer com que esses servidores funcionassem juntos de maneira integrada. No Huawei Join 2025, a gigante tecnológica chinesa revelou uma abordagem que muda a forma como os fornecedores de nuvem e as empresas podem reunir recursos computacionais.

Em vez de gerir milhares de servidores independentes que comunicam através de redes tradicionais, a tecnologia SuperPod da Huawei cria o que os executivos descrevem como sistemas unificados onde a infra-estrutura física se comporta como máquinas lógicas únicas. Para os fornecedores de nuvem que criam serviços de IA e para as empresas que implementam nuvens privadas de IA, isto representa uma mudança significativa na forma como a infraestrutura pode ser arquitetada, gerida e dimensionada.

O problema de infraestrutura em nuvem que o SuperPod resolve

A infraestrutura tradicional de IA em nuvem enfrenta um desafio persistente: à medida que os clusters crescem, a eficiência da computação diminui. Isso acontece porque os servidores individuais em um cluster permanecem independentes, comunicando-se por meio de protocolos de rede que introduzem latência e complexidade. O resultado é o que os profissionais da indústria chamam de “penalidades de escalonamento” – onde a adição de mais {hardware} não aumenta proporcionalmente o poder de computação utilizável.

Yang Chaobin, Diretor do Conselho e CEO do ICT Enterprise Group da Huawei, explicou que a empresa desenvolveu “a inovadora arquitetura SuperPod baseada em nosso protocolo de interconexão UnifiedBus. A arquitetura interconecta profundamente os servidores físicos para que eles possam aprender, pensar e raciocinar como um único servidor lógico”.

Isto não é apenas uma rede mais rápida; é uma rearquitetura de como a infraestrutura de IA em nuvem pode ser construída.

A base técnica: protocolo UnifiedBus

No centro da abordagem de infraestrutura de IA em nuvem da Huawei está o UnifiedBus, um protocolo de interconexão projetado especificamente para pool de recursos em grande escala. O protocolo aborda dois importantes desafios de infraestrutura que limitaram as implantações de IA na nuvem: manter a confiabilidade em longas distâncias em information facilities e otimizar a compensação entre largura de banda e latência que afeta o desempenho.

A conectividade tradicional do information middle depende de cabos de cobre (alta largura de banda, curto alcance, normalmente conectando apenas dois racks) ou cabos ópticos (maior alcance, mas com preocupações de confiabilidade em escala). Para os provedores de nuvem que criam infraestrutura para suportar milhares de processadores de IA, nenhuma das opções se mostra preferrred.

Eric Xu, vice-presidente e presidente rotativo da Huawei, disse que resolver esses desafios fundamentais de conectividade period essencial para a estratégia de infraestrutura de IA em nuvem da empresa. Baseando-se no que ele descreveu como as três décadas de experiência em conectividade da Huawei, Xu detalhou as soluções inovadoras: “Incorporamos confiabilidade em todas as camadas do nosso protocolo de interconexão, desde a camada física e a camada de enlace de dados, até as camadas de rede e transmissão. Há detecção de falhas de nível 100 ns e comutação de proteção em caminhos ópticos, tornando imperceptíveis quaisquer desconexões ou falhas intermitentes de módulos ópticos. na camada de aplicação.”

O resultado é o que a Huawei descreve como uma interconexão óptica 100 vezes mais confiável do que as abordagens convencionais, suportando conexões de mais de 200 metros em information facilities, mantendo as características de confiabilidade normalmente associadas às conexões de cobre.

Configurações do SuperPod: da empresa à hiperescala

A linha de produtos de infraestrutura de IA em nuvem da Huawei abrange diversas escalas, cada uma projetada para diferentes cenários de implantação. O Atlas 950 SuperPod representa a implementação principal, apresentando até 8.192 processadores Ascend 950DT AI configurados em 160 gabinetes ocupando 1.000 metros quadrados de espaço de information middle.

O sistema oferece 8 EFLOPS com precisão FP8 e 16 EFLOPS com precisão FP4, com 1.152 TB de capacidade whole de memória. As especificações de interconexão revelam as ambições da arquitetura: largura de banda de 16 PB/s em todo o sistema.

Como observou Xu, “Isso significa que um único Atlas 950 SuperPod terá uma largura de banda de interconexão 10 vezes maior do que o pico whole de largura de banda da Web em todo o mundo”. O nível de conectividade interna permite que o sistema mantenha a escala de desempenho linear – adicionar mais processadores aumenta genuinamente o poder de computação utilizável proporcionalmente.

Para implantações de nuvem maiores, o Atlas 960 SuperPod incorpora 15.488 processadores Ascend 960 em 220 gabinetes em 2.200 metros quadrados, fornecendo 30 EFLOPS no FP8 e 60 EFLOPS no FP4, com 4.460 TB de memória e largura de banda de interconexão de 34 PB/s. O Atlas 960 estará disponível no quarto trimestre de 2027.

Implicações para a entrega de serviços em nuvem

Além dos principais produtos SuperPod, a Huawei introduziu configurações de infraestrutura de IA em nuvem projetadas especificamente para information facilities corporativos. O Atlas 850 SuperPod, posicionado como “o primeiro servidor SuperPoD refrigerado a ar do setor projetado para empresas”, apresenta oito NPUs Ascend e suporta implantação flexível de vários gabinetes de até 128 unidades com 1.024 NPUs.

Significativamente, esta configuração pode ser implantada em salas de equipamentos refrigeradas a ar padrão, evitando as modificações de infraestrutura necessárias para sistemas de refrigeração líquida. Para provedores de nuvem e empresas, isso apresenta flexibilidade prática de implantação. As organizações podem implementar a arquitetura SuperPod sem necessariamente exigir reformulações completas do information middle, acelerando potencialmente os prazos de adoção.

Arquitetura SuperCluster: implantação em nuvem em hiperescala

A visão da Huawei vai além dos SuperPods individuais, até o que a empresa chama de SuperClusters – implantações massivas de infraestrutura de IA em nuvem que compreendem vários SuperPods interconectados. O Atlas 950 SuperCluster incorporará 64 SuperPods Atlas 950, criando um sistema com mais de 520.000 processadores de IA em mais de 10.000 gabinetes, fornecendo 524 EFLOPS com precisão FP8.

Uma decisão técnica importante afeta a forma como os fornecedores de nuvem podem implementar estes sistemas. O Atlas 950 SuperCluster suporta os protocolos UBoE (UnifiedBus over Ethernet) e RoCE (RDMA over Converged Ethernet). O UBoE permite que o UnifiedBus seja executado em infraestrutura Ethernet padrão, permitindo que os provedores de nuvem integrem potencialmente a tecnologia SuperPod com redes de information middle existentes.

De acordo com as especificações da Huawei, os clusters UBoE demonstram menor latência estática e maior confiabilidade em comparação aos clusters RoCE, ao mesmo tempo que requerem menos switches e módulos ópticos. Para os provedores de nuvem que planejam implantações em grande escala, isso pode se traduzir em vantagens econômicas e de desempenho.

O Atlas 960 SuperCluster, programado para disponibilidade no quarto trimestre de 2027, integrará mais de um milhão de NPUs para entregar 2 ZFLOPS (zettaFLOPS) no FP8 e 4 ZFLOPS no FP4. As especificações posicionam o sistema para o que Xu descreveu como futuros modelos de IA “com mais de 1 trilhão ou 10 trilhões de parâmetros”.

Além da IA: infraestrutura em nuvem de uso geral

As implicações da arquitetura SuperPod vão além das cargas de trabalho de IA, chegando à computação em nuvem de uso geral por meio do TaiShan 950 SuperPod. Construído em processadores Kunpeng 950 com até 192 núcleos e 384 threads, este sistema atende aos requisitos corporativos para aplicativos de missão importante tradicionalmente executados em mainframes, servidores de banco de dados Exadata da Oracle e computadores de médio porte.

O TaiShan 950 SuperPod suporta até 16 nós com 32 processadores e 48 TB de memória, incorporando pool de memória, pool de SSD e pool de DPU (unidade de processamento de dados). Quando integrado ao banco de dados GaussDB distribuído da Huawei, o sistema oferece o que a empresa afirma ser uma melhoria de desempenho de 2,9x em relação às arquiteturas tradicionais, sem exigir modificações no aplicativo.

Para os provedores de nuvem que atendem clientes corporativos, isso apresenta oportunidades significativas para infraestrutura nativa da nuvem. Além dos bancos de dados, a Huawei afirma que o TaiShan 950 SuperPod aumenta o uso de memória em 20% em ambientes virtualizados e acelera as cargas de trabalho do Spark em 30%.

A estratégia de arquitetura aberta

Talvez o mais significativo para o mercado mais amplo de infraestrutura de IA em nuvem seja o fato de a Huawei ter anunciado que as especificações técnicas do UnifiedBus 2.0 seriam lançadas como padrões abertos. A empresa está fornecendo acesso aberto a componentes de {hardware} e software program: módulos NPU, servidores blade resfriados a ar e líquidos, placas de IA, placas de CPU, placas em cascata, ferramentas de compilador CANN, kits de aplicativos da série Thoughts e modelos de base openPangu – tudo até 31 de dezembro de 2025.

Yang enquadrou isso como desenvolvimento de ecossistema: “Estamos comprometidos com nossa abordagem de {hardware} aberto e software program de código aberto que ajudará mais parceiros a desenvolver suas próprias soluções SuperPod baseadas em cenários industriais. Isso acelerará a inovação dos desenvolvedores e promoverá um ecossistema próspero”.

Para provedores de nuvem e integradores de sistemas, esta abordagem aberta reduz potencialmente as barreiras à implantação de infraestrutura baseada em SuperPod. Em vez de ficarem presos a soluções de um único fornecedor, os parceiros podem desenvolver implementações personalizadas usando especificações UnifiedBus.

Validação de mercado e realidade de implantação

A arquitetura da infraestrutura de IA em nuvem já foi implantada no mundo actual. Mais de 300 unidades Atlas 900 A3 SuperPod foram enviadas em 2025, implantadas para mais de 20 clientes nos setores de Web, finanças, operadoras, eletricidade e manufatura. A escala de implantação fornece alguma validação de que a arquitetura funciona além das demonstrações de laboratório.

Xu reconheceu o contexto que molda a estratégia de infraestrutura da Huawei: “O continente chinês ficará para trás nos nós de processos de fabricação de semicondutores por um tempo relativamente longo”, acrescentando que “o poder de computação sustentável só pode ser alcançado com nós de processos que estejam praticamente disponíveis”.

A declaração enquadra a arquitetura SuperPod como uma resposta estratégica às restrições – alcançando desempenho competitivo através da inovação arquitetônica, e não apenas através da fabricação avançada de semicondutores.

O que isso significa para a evolução da infraestrutura em nuvem

A arquitetura SuperPod da Huawei representa uma aposta específica sobre como a infraestrutura de IA em nuvem deve evoluir: em direção a uma maior integração e agrupamento de recursos em grande escala, possibilitada por tecnologia de interconexão desenvolvida especificamente. Se esta abordagem se mostra mais eficaz do que alternativas – como clusters fracamente acoplados com orquestração de software program sofisticada – ainda precisa ser demonstrado em implantações de produção em hiperescala.

Para os fornecedores de nuvens, a estratégia de arquitectura aberta introduz opções para a construção de infra-estruturas de IA sem necessariamente adoptar as abordagens fortemente integradas de hardware-software dominantes entre os concorrentes ocidentais. Para empresas que avaliam a infraestrutura de IA em nuvem privada, as configurações do SuperPod, como o Atlas 850 refrigerado a ar, apresentam caminhos de implantação que não exigem reformulações completas do information middle.

A implicação mais ampla diz respeito à forma como a infraestrutura de IA na nuvem pode ser arquitetada em mercados onde o acesso à produção mais avançada de semicondutores permanece limitado. A abordagem da Huawei sugere que a inovação arquitetônica em interconexão, agrupamento de recursos e design de sistemas pode potencialmente compensar as limitações nas capacidades de processadores individuais – uma proposta que será testada à medida que esses sistemas forem dimensionados para cargas de trabalho de produção em diversos cenários de implementação em nuvem.

(Foto tirada do vídeo do discurso de Xu na abertura do Huawei Join 2025)

O futuro da infraestrutura de IA em nuvem: por dentro da arquitetura UnifiedBus da HuaweiO futuro da infraestrutura de IA em nuvem: por dentro da arquitetura UnifiedBus da Huawei

Quer aprender mais sobre Cloud Computing com os líderes do setor? Confira Segurança cibernética e exposição de nuvem acontecendo em Amsterdã, Califórnia e Londres. O evento abrangente faz parte TechEx e co-localizado com outros eventos de tecnologia líderes. Clique aqui para mais informações.

CloudTech Information é desenvolvido por Mídia TechForge. Discover outros eventos e webinars de tecnologia empresarial futuros aqui.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *