Maia 200: O acelerador de IA construído para inferência


Hoje, temos orgulho de apresentar o Maia 200, um acelerador de inferência inovador projetado para melhorar drasticamente a economia da geração de tokens de IA. Maia 200 é uma potência de inferência de IA: um acelerador construído no processo de 3 nm da TSMC com núcleos tensores nativos FP8/FP4, um sistema de memória redesenhado com 216 GB HBM3e a 7 TB/s e 272 MB de SRAM no chip, além de mecanismos de movimentação de dados que mantêm modelos massivos alimentados, rápidos e altamente utilizados. Isso torna o Maia 200 o silício unique de melhor desempenho de qualquer hiperescalador, com três vezes o desempenho do FP4 do Amazon Trainium de terceira geração e desempenho do FP8 acima da TPU de sétima geração do Google. O Maia 200 também é o sistema de inferência mais eficiente que a Microsoft já implantou, com desempenho 30% melhor por dólar do que o {hardware} de última geração em nossa frota atualmente.

O Maia 200 faz parte de nossa infraestrutura heterogênea de IA e atenderá a vários modelos, incluindo os mais recentes modelos GPT-5.2 da OpenAI, trazendo vantagem de desempenho por dólar para o Microsoft Foundry e o Microsoft 365 Copilot. A equipe de Superinteligência da Microsoft usará o Maia 200 para geração de dados sintéticos e aprendizado por reforço para melhorar os modelos internos de próxima geração. Para casos de uso de pipeline de dados sintéticos, o design exclusivo do Maia 200 ajuda a acelerar a taxa na qual dados específicos de domínio de alta qualidade podem ser gerados e filtrados, alimentando o treinamento downstream com sinais mais atualizados e direcionados.

O Maia 200 está implantado em nossa região de datacenter Central dos EUA, perto de Des Moines, Iowa, com a região de datacenter US West 3, perto de Phoenix, Arizona, sendo a próxima e as futuras regiões a seguir. O Maia 200 se integra perfeitamente ao Azure, e estamos apresentando uma prévia do Maia SDK com um conjunto completo de ferramentas para construir e otimizar modelos para o Maia 200. Ele inclui um conjunto completo de recursos, incluindo integração com PyTorch, um compilador Triton e uma biblioteca de kernel otimizada, além de acesso à linguagem de programação de baixo nível do Maia. Isso dá aos desenvolvedores um controle refinado quando necessário, ao mesmo tempo que permite fácil portabilidade de modelos em aceleradores de {hardware} heterogêneos.

Vídeo do YouTube

Projetado para inferência de IA

Fabricado no processo de 3 nanômetros de última geração da TSMC, cada chip Maia 200 contém mais de 140 bilhões de transistores e é adaptado para cargas de trabalho de IA em grande escala, ao mesmo tempo que oferece desempenho eficiente por dólar. Em ambas as frentes, o Maia 200 foi construído para se destacar. Ele foi projetado para os modelos mais recentes usando computação de baixa precisão, com cada chip Maia 200 fornecendo mais de 10 petaFLOPS com precisão de 4 bits (FP4) e mais de 5 petaFLOPS de desempenho de 8 bits (FP8), tudo dentro de um envelope SoC TDP de 750W. Em termos práticos, o Maia 200 pode operar facilmente os maiores modelos atuais, com bastante espaço para modelos ainda maiores no futuro.

Maia 200: O acelerador de IA construído para inferência

Fundamentalmente, os FLOPS não são o único ingrediente para uma IA mais rápida. A alimentação de dados é igualmente importante. O Maia 200 ataca esse gargalo com um subsistema de memória redesenhado. O subsistema de memória Maia 200 é centrado em tipos de dados de precisão estreita, um mecanismo DMA especializado, SRAM on-die e uma estrutura NoC especializada para movimentação de dados em alta largura de banda, aumentando o rendimento do token.

Uma tabela com o título “Capacidade líder do setor” mostra as especificações máximas para Azure Maia 200, AWS Trainium 3 e Google TPU v7.

Sistemas de IA otimizados

No nível de sistemas, o Maia 200 apresenta um novo design de rede escalonável de duas camadas construído em Ethernet padrão. Uma camada de transporte personalizada e uma NIC totalmente integrada proporcionam desempenho, forte confiabilidade e vantagens de custo significativas sem depender de estruturas proprietárias.

Cada acelerador expõe:

  • 2,8 TB/s de largura de banda de expansão bidirecional e dedicada
  • Operações coletivas previsíveis e de alto desempenho em clusters de até 6.144 aceleradores

Esta arquitetura proporciona um desempenho escalável para clusters de inferência densos, ao mesmo tempo que reduz o uso de energia e o TCO geral em toda a frota world do Azure.

Dentro de cada bandeja, quatro aceleradores Maia estão totalmente conectados com hyperlinks diretos e não comutados, mantendo a comunicação native de alta largura de banda para eficiência superb de inferência. Os mesmos protocolos de comunicação são usados ​​para redes intra-rack e entre racks usando o protocolo de transporte Maia AI, permitindo escalonamento contínuo entre nós, racks e clusters de aceleradores com saltos de rede mínimos. Essa estrutura unificada simplifica a programação, melhora a flexibilidade da carga de trabalho e reduz a capacidade ociosa, ao mesmo tempo que mantém desempenho consistente e eficiência de custos em escala de nuvem.

Uma visão de cima para baixo do servidor blade Maia 200.

Uma abordagem de desenvolvimento nativa da nuvem

Um princípio basic dos programas de desenvolvimento de silício da Microsoft é validar o máximo possível do sistema ponta a ponta antes da disponibilidade last do silício.

Um sofisticado ambiente pré-silício guiou a arquitetura Maia 200 desde seus estágios iniciais, modelando os padrões de computação e comunicação dos LLMs com alta fidelidade. Esse ambiente inicial de codesenvolvimento nos permitiu otimizar o silício, a rede e o software program do sistema como um todo unificado, muito antes do primeiro silício.

Também projetamos o Maia 200 para disponibilidade rápida e contínua no datacenter desde o início, construindo a validação antecipada de alguns dos elementos mais complexos do sistema, incluindo a rede backend e nossa unidade trocador de calor de refrigeração líquida de circuito fechado de segunda geração. A integração nativa com o plano de controle do Azure oferece recursos de segurança, telemetria, diagnóstico e gerenciamento nos níveis de chip e rack, maximizando a confiabilidade e o tempo de atividade para cargas de trabalho de IA críticas para a produção.

Como resultado desses investimentos, os modelos de IA estavam rodando no silício Maia 200 poucos dias após a chegada da primeira peça embalada. O tempo desde o primeiro silício até a implantação do primeiro rack do datacenter foi reduzido para menos da metade do tempo de programas de infraestrutura de IA comparáveis. E essa abordagem ponta a ponta, do chip ao software program e ao datacenter, se traduz diretamente em maior utilização, tempo de produção mais rápido e melhorias sustentadas no desempenho por dólar e por watt na escala da nuvem.

Vista do rack Maia 200 e da unidade de resfriamento HXU.

Inscreva-se para a prévia do Maia SDK

A period da IA ​​em grande escala está apenas começando e a infraestrutura definirá o que é possível. Nosso programa acelerador Maia AI foi projetado para ser multigeracional. À medida que implantamos o Maia 200 em nossa infraestrutura world, já estamos projetando para as gerações futuras e esperamos que cada geração estabeleça continuamente novos padrões de referência para o que é possível e forneça desempenho e eficiência cada vez melhores para as cargas de trabalho de IA mais importantes.

Hoje, estamos convidando desenvolvedores, startups de IA e acadêmicos para começarem a explorar modelos iniciais e otimização de carga de trabalho com o novo package de desenvolvimento de software program (SDK) Maia 200. O SDK inclui um compilador Triton, suporte para PyTorch, programação de baixo nível em NPL e um simulador Maia e calculadora de custos para otimizar a eficiência no início do ciclo de vida do código. Inscreva-se para a visualização aqui.

Obtenha mais fotos, vídeos e recursos em nosso Native Maia 200 e leia mais detalhes.

Scott Guthrie é responsável por soluções e serviços de computação em nuvem em hiperescala, incluindo Azure, a plataforma de computação em nuvem da Microsoft, soluções generativas de IA, plataformas de dados e informações e segurança cibernética. Estas plataformas e serviços ajudam organizações em todo o mundo a resolver desafios urgentes e a impulsionar a transformação a longo prazo.

Etiquetas: , ,



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *