
(Lafoto/Shutterstock)
A revolução da IA criou uma enorme demanda por processamento de poder para treinar modelos de fronteira, que a NVIDIA está preenchendo com suas GPUs de ponta. Mas a mudança repentina para a inferência de IA e a IA agêntica em 2025 está expondo lacunas no pipeline da memória, que a matriz D espera abordar com sua inovadora arquitetura de computação digital em memória (3DIMC) empilhada, que exibiu em scorching chips nesta semana.
Mesmo antes do lançamento do chatgpt acendeu a revolução da IA No remaining de 2022, o pessoal de Matrix D. já havia identificado uma necessidade não preenchida de memória maior e mais rápida em resposta a grandes modelos de linguagem (LLMS). O CEO e co-fundador da D-Matrix, Sid Sheth, já estava prevendo uma onda de cargas de trabalho de inferência de IA para resultar do promissor LLMS de Openai e Google Isso já estava virando a cabeça no mundo da IA e além.
“Achamos que isso vai ficar por muito tempo”, Sheth contado Bigdatawire Em abril de 2022 sobre o potencial transformador do LLMS. “Achamos que as pessoas vão essencialmente gravar em torno dos transformadores nos próximos cinco a ten anos, e essa será a carga de trabalho do cavalo de trabalho para a IA calcular para os próximos cinco a ten anos”.
Não apenas prevê corretamente o impacto transformador do modelo de transformador, mas também previu que acabaria resultando em um aumento nas cargas de trabalho de inferência de IA. Isso apresentou uma oportunidade de negócio para Sheth e D-matriz. O problema period que as arquiteturas de computação de alto desempenho baseadas em GPU que funcionaram bem para treinar os modelos Ever-Greater LLMS e Frontier não eram ideais para a execução de cargas de trabalho de inferência de IA. De fato, a matriz D identificou que o problema se estendia até o DRAM, o que não pôde mover com eficiência os dados nas altas velocidades necessárias para suportar as cargas de trabalho de inferência de IA iminentes.
A solução da matriz D para isso foi focar na inovação na camada de memória. Embora o DRAM não tenha conseguido acompanhar as demandas de inferência da IA, uma forma de memória mais rápida e mais cara chamada SRAM, ou memória estática de acesso aleatório, estava pronta para a tarefa.
A matriz D utilizou a tecnologia de computação de memória digital (DMIC) que fundiu um processador diretamente nos módulos SRAM. Sua arquitetura Nighthawk utilizou chiplets DMIC incorporados diretamente em cartões SRAM que se conectam diretamente ao barramento PCI, enquanto sua arquitetura Jayhawk forneceu ofertas de diabelas para processamento de escala. Ambas as arquiteturas foram incorporadas à oferta principal da empresa, apelidada de Corsair, que hoje utiliza o mais recente fator de forma do PCIE Gen5 e apresenta largura de banda de memória ultra-alta de 150 TB/s.
Avanço rápido para 2025, e muitas das previsões de Sheth passaram. Estamos firmemente no meio de uma grande mudança do treinamento de IA para a inferência da IA, com a IA Agentic preparada para impulsionar enormes investimentos nos próximos anos. A matriz D acompanhou as necessidades de cargas de trabalho emergentes de IA, e nesta semana anunciou que sua arquitetura Pavehawk de próxima geração, que usa a tecnologia DMIC empilhada tridimensional (ou 3dmic), agora está trabalhando no laboratório.
Sheth está confiante de que o 3DMIC fornecerá o impulso de desempenho para ajudar a inferência da IA a superar a parede da memória.
“A inferência da IA é gargalorizada pela memória, não apenas flops. Os modelos estão crescendo rapidamente e os sistemas de memória HBM tradicionais estão ficando muito caros, com fome de energia e largura de banda Restricted”, Sheth escreveu em uma postagem no weblog do LinkedIn. “O 3DIMC muda o jogo. Ao empilhar a memória em três dimensões e trazê -la para uma integração mais rígida com o computação, reduzimos drasticamente a latência, melhoramos a largura de banda e desbloqueamos novos ganhos de eficiência.”
A parede da memória está pairando há anos e se deve a uma incompatibilidade nos avanços das tecnologias de memória e processador. “Os benchmarks da indústria mostram que o desempenho da computação cresceu aproximadamente 3x a cada dois anos, enquanto a largura de banda da memória ficou com apenas 1,6x”, compartilhou o fundador da matriz D e o CTO Sudeep Bhoja em um submit no weblog esta semana. “O resultado é uma lacuna crescente em que os processadores caros ficam ociosos, aguardando os dados chegarem.”
Embora não feche completamente a lacuna com as mais recentes GPUs, a Tecnologia 3dmic promete fechar a lacuna, escreveu Bhoja. À medida que o Pavehawk chega ao mercado, a empresa está atualmente desenvolvendo a próxima geração de arquitetura de processamento na memória que utiliza o Raptor 3DMIC e apelidado.
“O Raptor… incorporará o 3DIMC em seu design – se refere a o que nós e nossos clientes aprendemos com os testes em Pavehawk”, escreveu Bhoja. “Ao empilhar a memória verticalmente e integrar -se firmemente aos chiplets de computação, o Raptor promete romper a parede da memória e desbloquear níveis totalmente novos de desempenho e TCO”.
Quão melhor? De acordo com a Bhoja, a matriz D espera 10x melhor largura de banda de memória e 10x melhor eficiência energética ao executar cargas de trabalho de inferência de IA com 3DIMC em comparação com o HBM4.
“Estes não são ganhos incrementais-são melhorias de função de etapa que redefinem o que é possível para inferência em escala”, escreveu Bhoja. Ao colocar os requisitos de memória no centro de nosso design – de corsair a Raptor e além – estamos garantindo que a inferência seja mais rápida, mais acessível e sustentável em escala.
Itens relacionados:
Matrix D recebe financiamento para construir ‘chipets’ SRAM para inferência de IA
A nova economia da IA: Custos de treinamento para inferência Engenuity