O desempenho da Huawei CloudMatrix AI alcançou o que a empresa afirma ser um marco significativo, com testes internos mostrando sua nova arquitetura de information middle superando as unidades de processamento de gráficos H800 da NVIDIA na execução R1 avançado de Deepseek modelo de inteligência synthetic, de acordo com um abrangentepapel técnicoLançado nesta semana por pesquisadores da Huawei.
A pesquisa, conduzida pela Huawei Applied sciences em colaboração com a startup de infraestrutura de IA chinesa Siliconflow, fornece o que parece ser a primeira divulgação pública detalhada das métricas de desempenho para o CloudMatrix384.
No entanto, é importante observar que os benchmarks foram conduzidos pela Huawei em seus sistemas, levantando questões sobre a verificação independente das vantagens de desempenho reivindicadas sobre os padrões estabelecidos da indústria.
O artigo descreve o CloudMatrix384 como uma “arquitetura de datacentre de AI da próxima geração que incorpora a visão da Huawei para reformular a base da infraestrutura da IA”. Embora as realizações técnicas descritas pareçam impressionantes, a falta de validação de terceiros significa que os resultados devem ser vistos no contexto dos esforços contínuos da Huawei para demonstrar competitividade tecnológica fora das sanções dos EUA.
A arquitetura CloudMatrix384
O CloudMatrix384 integra 384 NPUs Ascend 910C e 192 CPUs Kunpeng em um supernodo, conectado por um barramento unificado de baixa largura de banda de altura e alta alta latência (UB).
Diferentemente dos designs hierárquicos tradicionais, uma arquitetura ponto a ponto permite o que a Huawei chama de “comunicação direta para todos”, permitindo que os recursos de computação, memória e rede sejam agrupados dinamicamente e dimensionados de forma independente.
O design do sistema aborda desafios notáveis na criação de infraestrutura moderna de IA, principalmente para arquiteturas de mistura de especialistas (MOE) e acesso de cache de valor-chave distribuído, considerado essencial para grandes operações de modelos de idiomas.
Reivindicações de desempenho: os números no contexto
O Huawei CloudMatrix AI desempenho resulta, embora conduzido internamente, apresenta métricas impressionantes nos recursos do sistema. Para entender os números, é útil pensar no processamento da IA como uma conversa: a fase de “pré -enchimento” é quando uma IA lê e “entende” uma pergunta, enquanto a fase “decodificação” é quando gera sua resposta, palavra por palavra.
De acordo com os testes da empresa, o CloudMatrix-Infer alcança uma taxa de transferência de pré-preenchimento de 6.688 tokens por segundo por unidade de processamento e 1.943 tokens por segundo ao gerar uma resposta.
Pense nos tokens como peças individuais de texto – aproximadamente equivalentes a palavras ou partes de palavras que a IA processa. Para contexto, isso significa que o sistema pode processar milhares de palavras por segundo em cada chip.
A medição “TPOT” (TOKEN-TOKEN TEMPO-E-E-SOVUPTURA) MENOS 50 milissegundos significa que o sistema gera cada palavra em sua resposta em menos de um vigésimo de segundo-criando tempos de resposta notavelmente rápidos.
Mais significativamente, os resultados da Huawei correspondem ao que afirma ser classificações de eficiência superiores em comparação com os sistemas concorrentes. A empresa mede isso através da “eficiência de computação” – essencialmente, quanto trabalho útil cada chip realiza em relação ao seu poder teórico máximo de processamento.
A Huawei afirma que seu sistema atinge 4,45 tokens por segundo por TFLOPS para perguntas de leitura e 1,29 tokens por segundo por TFLOPS para gerar respostas. Em perspectiva, o TFLOPS (trilhões de operações de ponto flutuante por segundo) mede o poder computacional bruto-semelhante à classificação de potência de um carro.
As reivindicações de eficiência da Huawei sugerem que seu sistema faz um trabalho de IA mais útil por unidade de potência computacional do que os processadores concorrentes da NVIDIA.
A Companhia relata manter 538 tokens por segundo sob os requisitos de tempo mais rigorosos dos sub-15 milissegundos por palavra.
No entanto, os números impressionantes carecem de verificação independente de terceiros, prática padrão para validar as reivindicações de desempenho no setor de tecnologia.
Inovações técnicas por trás das reivindicações
As métricas relatadas da Huawei CloudMatrix AI de desempenho decorrem de vários detalhes técnicos citados no artigo de pesquisa. O sistema implementa o que a Huawei descreve como uma “arquitetura de porção ponto a ponto” que desagrega o fluxo de trabalho de inferência em três subsistemas: pré-enchimento, decodificar e armazenar em cache, permitindo que cada componente escala com base nas demandas da carga de trabalho.
O artigo postula três inovações: uma arquitetura de servir ponto a ponto com swimming pools de recursos desagregados, o especialista em larga escala, que apoia até a configuração EP320, onde cada NPU morre um especialista e otimizações com consciência de {hardware}, incluindo operadores otimizados, pipelinização de microbatch e quantisação int8.
Contexto geopolítico e implicações estratégicas
As reivindicações de desempenho emergem contra o pano de fundo de intensificar as tensões tecnológicas EUA-China. O fundador da Huawei, Ren Zhengfei, reconheceu recentemente que os chips da empresa ainda ficam atrás dos concorrentes dos EUA “por uma geração”, mas disse que os métodos de agrupamento podem obter desempenho comparável aos sistemas mais avançados do mundo.
O CEO da NVIDIA, Jensen Huang, pareceu validar isso durante uma recente entrevista do CNBC, afirmando: “A IA é um problema paralelo; portanto, se cada um dos computadores não for capaz … basta adicionar mais computadores … na China, (onde) eles têm muita energia, eles apenas usarão mais chips.”
O pesquisador líder Zuo Pengfei, parte do programa “Genius Youth” da Huawei, enquadrou a importância estratégica da pesquisa, escrevendo que o artigo pretende “construir confiança no ecossistema de tecnologia doméstica no uso de NPUs desenvolvidas em chinês para superar as GPUs da NVIDIA”.
Questões de verificação e impacto da indústria
Além das métricas de desempenho, a Huawei relata que a quantização do INT8 mantém a precisão do modelo comparável à API oficial do Deepseek-R1 em 16 benchmarks em testes internos e não verificados.
As indústrias de IA e tecnologia provavelmente aguardam a verificação independente do desempenho da IA CloudMatrix da Huawei antes de tirar conclusões definitivas.
No entanto, as abordagens técnicas descritas sugerem inovação genuína no design de infraestrutura de IA, oferecendo informações para o setor, independentemente dos números de desempenho específicos.
As reivindicações da Huawei – validadas ou não – destacam a intensidade da concorrência no {hardware} de IA e as abordagens variadas adotam para obter eficiência computacional.
(Foto de Shutterstock)
Veja também: Da nuvem à colaboração: a Huawei mapeia o futuro da AI na APAC
Deseja aprender mais sobre segurança cibernética e nuvem dos líderes da indústria? Confira Cyber Safety & Cloud Expo Ocorrendo em Amsterdã, Califórnia e Londres.
Discover outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.