
Crise de meia-idade de Silício
A IA evoluiu do ML clássico para o aprendizado profundo para a IA generativa. O capítulo mais recente, que levou a IA mainstream, depende de duas fases-treinamento e inferência-que são dados e intensivos em energia em termos de computação, movimento de dados e resfriamento. Ao mesmo tempo, a lei de Moore, que determina que o número de transistores em um chip dobra a cada dois anos, é alcançando um platô físico e econômico.
Nos últimos 40 anos, os chips de silicone e a tecnologia digital se cutelaram para a frente – todos os seguintes no processamento da capacidade libera a imaginação dos inovadores para imaginar novos produtos, que exigem ainda mais poder para executar. Isso está acontecendo em velocidade de luz na period da IA.
À medida que os modelos se tornam mais prontamente disponíveis, a implantação em escala coloca os holofotes sobre a inferência e a aplicação de modelos treinados para casos de uso diário. Essa transição requer o {hardware} apropriado para lidar com tarefas de inferência com eficiência. As unidades de processamento central (CPUs) gerenciaram tarefas gerais de computação há décadas, mas a ampla adoção de ML introduziu demandas computacionais que ampliaram as capacidades das CPUs tradicionais. Isso levou à adoção de unidades de processamento de gráficos (GPUs) e outros chips aceleradores para o treinamento de redes neurais complexas, devido aos seus recursos de execução paralelos e alta largura de banda de memória que permite que operações matemáticas em larga escala sejam processadas com eficiência.
Mas as CPUs já são as mais amplamente implantadas e podem ser companheiros de processadores como GPUs e unidades de processamento de tensores (TPUs). Os desenvolvedores de IA também hesitam em adaptar o software program para ajustar o {hardware} especializado ou sob medida e favorecem a consistência e a onipresença das CPUs. Os designers de chips estão desbloqueando ganhos de desempenho por meio de ferramentas otimizadas de software program, adicionando novos recursos de processamento e tipos de dados especificamente para servir cargas de trabalho de ML, integrando unidades e aceleradores especializados e aceleradores e Avançando inovações de chips de silícioincluindo silício personalizado. A IA em si é uma ajuda útil para o design de chips, criando um loop de suggestions positivo no qual a IA ajuda a otimizar os chips que precisa ser executado. Esses aprimoramentos e suporte de software program forte significam que as CPUs modernas são uma boa opção para lidar com uma variedade de tarefas de inferência.
Além dos processadores baseados em silício, as tecnologias disruptivas estão surgindo para atender à crescente computação de IA e demandas de dados. O Unicorn Begin-up LightMatterpor exemplo, introduziu soluções de computação fotônica que usam luz para transmissão de dados para gerar melhorias significativas na velocidade e na eficiência energética. Computação quântica Representa outra área promissora em {hardware} de IA. Enquanto estáados anos ou até décadas, a integração da computação quântica com IA pode transformar ainda mais campos como descoberta de medicamentos e genômica.
Entendendo modelos e paradigmas
Os desenvolvimentos nas teorias de ML e arquiteturas de rede aumentaram significativamente a eficiência e as capacidades dos modelos de IA. Hoje, a indústria está passando de modelos monolíticos para sistemas baseados em agentes, caracterizados por modelos menores e especializados que trabalham juntos para concluir tarefas com mais eficiência no limite-em dispositivos como smartphones ou veículos modernos. Isso lhes permite extrair ganhos de desempenho aumentados, como tempos de resposta mais rápidos do modelo, a partir da mesma ou menos computados.
Os pesquisadores desenvolveram técnicas, incluindo aprendizado de poucos anos, para treinar modelos de IA usando conjuntos de dados menores e menos iterações de treinamento. Os sistemas de IA podem aprender novas tarefas com um número limitado de exemplos para reduzir a dependência de grandes conjuntos de dados e reduzir as demandas de energia. Técnicas de otimização como quantização, que reduzem os requisitos de memória, reduzindo seletivamente a precisão, estão ajudando a reduzir os tamanhos dos modelos sem sacrificar o desempenho.
As novas arquiteturas do sistema, como a geração de recuperação (RAG), simplificaram o acesso de dados durante o treinamento e a inferência para reduzir os custos computacionais e as despesas gerais. O Deepseek R1, um LLM de código aberto, é um exemplo atraente de como mais saída pode ser extraída usando o mesmo {hardware}. Ao aplicar técnicas de aprendizado de reforço de maneiras novas, o R1 alcançou recursos avançados de raciocínio ao usar longe Menos recursos computacionais em alguns contextos.