A IA tornou grandes modelos de linguagem (LLMS). Embora as GPUs tenham sido essenciais para dimensionar a IA no nível do knowledge middle (treinamento), implantando IA em ambientes com limpeza de energia-como dispositivos IoT, câmeras de segurança de vídeo e sistemas de computação de borda-requer uma abordagem diferente. A indústria agora está mudando para arquiteturas de computação mais eficientes e modelos de IA especializados, adaptados para aplicações distribuídas e de baixa potência.
Agora precisamos repensar como milhões – ou até bilhões – de pontos de extremidade evoluem além de simplesmente agir como dispositivos que precisam se conectar à nuvem para tarefas de IA. Esses dispositivos devem se tornar verdadeiramente sistemas de borda de AI-A-iabled, capazes de realizar a inferência no dispositivo com a máxima eficiência, medida nas operações mais baixas da TERA por segundo por watt (tops/w).
Desafios para a computação de IA em tempo actual
Como ai Modelos de fundação crescer significativamente, o custo da infraestrutura e do consumo de energia aumentou acentuadamente. Isso mudou os holofotes nos recursos de knowledge middle necessário para apoiar as demandas crescentes de AI generativa. No entanto, para a inferência em tempo actual no limite, permanece um forte esforço para aproximar a aceleração da IA de onde os dados são gerados-nos próprios dispositivos.
O gerenciamento da IA no limite apresenta novos desafios. Não se trata mais de estar ligado a computação-ter operações de tera bruta suficientes por segundo (tops). Também precisamos considerar o desempenho da memória, enquanto permanecemos dentro de limites estritas no consumo e custo de energia para cada caso de uso. Essas restrições destacam uma realidade crescente: a computação e a memória estão se tornando componentes igualmente críticos em qualquer solução eficaz da borda de AI.
À medida que desenvolvemos modelos de IA cada vez mais sofisticados capazes de lidar com mais insumos e tarefas, seu tamanho e complexidade continuam a crescer, exigindo significativamente mais poder de computação. Enquanto TPUs e GPUs acompanharam esse crescimento, a largura de banda e o desempenho da memória não avançaram na mesma taxa. Isso cria um gargalo: mesmo que as GPUs possam processar mais dados, os sistemas de memória que os alimentam lutam para acompanhar. É um desafio crescente que ressalta a necessidade de equilibrar os avanços da computação e da memória no design do sistema de IA.


As restrições de largura de banda de memória criaram gargalos em incorporado Edge ai sistemas e limite o desempenho, apesar dos avanços na complexidade do modelo e na potência de computação.
Outra consideração importante é que a inferência envolve dados em movimento – o que significa neural A rede (NN) deve ingerir dados com curadoria que sofreram pré -processamento. Da mesma forma, uma vez que a quantização e as ativações passam pelo NN, o pós-processamento se torna igualmente crítico para o pipeline geral da IA. É como construir um carro com um motor de 500 cavalos de potência, mas alimentando-o com gasolina de baixa octanagem e equipando-o com pneus sobressalentes. Não importa o quão poderoso seja o motor, o desempenho do carro é limitado pelos componentes mais fracos do sistema.
Uma terceira consideração é que, mesmo que os SoCs incluam as NPUs e os recursos do acelerador-adicionando um pequeno cache de RAM como parte de sua caixa de areia, o custo desses processadores de vários domínios está aumentando a lei de materiais (BOM), além de limitar sua flexibilidade.
O valor de um acelerador ASIC otimizado e dedicado não pode ser exagerado. Esses aceleradores não apenas melhoram a eficiência da rede neural, mas também oferecem flexibilidade no suporte a uma ampla gama de modelos de IA. Outro benefício de um acelerador ASIC é que ele está ajustado para oferecer os melhores tops/w – tornando -o mais adequado para aplicações de borda que se beneficiarão do menor consumo de energia, melhores faixas térmicas e uso mais amplo de aplicações – de equipamentos agrícolas autônomos, câmeras de vigilância por vídeo, além de robôs móveis autônomos em um warehouse.
Sinergia de computação e memória
Co-processadores que se integram com plataformas de borda permitem profundamente em tempo actual aprendizado Tarefas de inferência com baixo consumo de energia e alta eficiência de custo. Eles suportam uma ampla gama de redes neurais, modelos de transformadores de visão e LLMs.
Um ótimo exemplo de sinergia de tecnologia é a combinação de HailoProcessador Acelerador AI de Edge com Micron‘s baixa potência Memória DDR (LPDDR). Juntos, eles oferecem uma solução equilibrada que fornece a mistura certa de computação e memória enquanto permanecem dentro de orçamentos de energia e custos rígidos – ideais para aplicações de AI de borda.
Tecnologia LPDDR da Micron Oferece transferência de dados de alta velocidade e alta largura de banda sem sacrificar a eficiência de energia para eliminar o gargalo no processamento de dados em tempo actual. Comumente usado em smartphones, laptops, sistemas automotivos e dispositivos industriais, o LPDDR é especialmente adequado para aplicativos de IA incorporados que exigem alta largura de banda de E/S e velocidades rápidas de pinos para acompanhar os aceleradores de IA modernos.
Por exemplo, LPDDR4/4X (DDR4 DRAM de baixa potência) e LPDDR5/5X (DDR5 DRA de baixa potência) oferecem ganhos de desempenho significativos nas gerações anteriores. O LPDDR4 suporta velocidades de até 4,2 GBits/s por pino com larguras de barramento até x64. O 1-beta LPDDR5X da Micron dobra esse desempenho, atingindo até 9,6 Gbits/s por pino e oferece 20% melhor eficiência de energia em comparação com LPDDR4X. Esses avanços são cruciais para apoiar as crescentes demandas da IA no limite, onde a velocidade e a eficiência energética são essenciais.
Um dos principais fornecedores de silício de IA com os quais a Micron colabora é Hailo. A Hailo oferece processadores de IA inovadores projetados de maneira exclusiva para permitir aplicativos de aprendizado profundo de alto desempenho em dispositivos de borda. Os processadores Hailo são voltados para a nova period de generativa Ai no limiteparalelamente à permitir a percepção e o aprimoramento de vídeo por meio de uma ampla gama de aceleradores de IA e processadores de visão.
Por exemplo, o processador HAILO-10H AI, fornecendo até 40 tops, oferecendo um processador AI Edge para inúmeros casos de uso. Segundo Hailo, a arquitetura de fluxo de dados de dados de estrutura de dados de estrutura de estrutura exclusiva, poderosa e escalável do Hailo-10H aproveita as propriedades principais das redes neurais. Ele permite que os dispositivos de borda executem aplicativos de aprendizado profundo em grande escala de maneira mais eficiente e eficaz do que as soluções tradicionais, enquanto reduzem significativamente os custos.
Colocando a solução para funcionar


Os processadores de visão de IA são ideais para câmeras inteligentes. O sistema VPU Hailo-15 VPU-A-A-Chip (SOC) combina as capacidades de infecção da AI de Hailo com avançado com avançado visão computacional motores, gerando qualidade de imagem premium e análise de vídeo avançada. A capacidade de IA sem precedentes de sua unidade de processamento de visão pode ser usada para aprimoramento de imagem e processamento de imagens de IA, de múltiplos aplicativos complexos de AI em escala em grande escala e com excelente eficiência.


Com a combinação do DRAM de baixa potência da Micron (LPDDR4X) testado rigorosamente para uma ampla gama de aplicações e os processadores de AI da Hailo, essa combinação permite uma ampla gama de aplicações. Desde as necessidades extremas de temperatura e desempenho das aplicações industriais e automotivas até as especificações exatas dos sistemas corporativos, o LPDDR4X da Micron é idealmente adequado para a VPU do Hailo, pois oferece taxas de dados de alto desempenho e alta largura de banda, sem comprometer a eficiência de energia.
Combinação vencedora
À medida que mais casos de uso estão aproveitando os dispositivos habilitados para IA, os desenvolvedores precisam considerar como milhões (até bilhões) de pontos de extremidade precisam evoluir para não ser apenas agentes em nuvem, mas realmente são dispositivos de borda AI-I-Iblited que podem suportar inferência no native, nos topos mais baixos/w. Com processadores projetados a partir do início para acelerar a IA para a borda e lpdram de baixa potência, confiável e de alto desempenho, Edge ai pode ser desenvolvido para mais e mais aplicações.
Artigo patrocinado
Comente sobre este artigo by way of X: @Iotnow_ e visite nossa página inicial IoT agora