Não podemos falar sobre poder hoje em dia. Estamos conversando sobre isso desde Stargate O projeto, com meio trilhão de dólares em investimentos em knowledge heart, foi lançado no início do ano. Estamos conversando sobre isso desde o agora clássico “Papagaios estocásticosArtigo. E, com o passar do tempo, só se torna mais um problema.
“Papagaios estocásticos” lida com duas questões: o consumo de energia da IA e a natureza elementary da IA generativa; Selecionando sequências de palavras de acordo com padrões estatísticos. Eu sempre desejei que esses eram dois papéis, porque seria mais fácil discordar sobre o poder e concordar com papagaios. Para mim, a questão do poder é uma espécie de arenque vermelho – mas cada vez mais, vejo que é um arenque vermelho que não está desaparecendo porque muitas pessoas com muito dinheiro querem arenques; Muitos acreditam que o monopólio do poder (ou o monopólio da capacidade de pagar pela energia) é o caminho para o domínio.
Por que, em um mundo melhor do que atualmente moramos, a questão do poder seria um arenque vermelho? Existem vários motivos relacionados:
- Eu sempre assumi que os modelos de linguagem de primeira geração seriam altamente ineficientes e que, com o tempo, desenvolvemos algoritmos mais eficientes.
- Também assumi que a economia dos modelos de linguagem seria semelhante às fundições de chip ou fábricas farmacêuticas: o primeiro chip que sai de uma fundição custa alguns bilhões de dólares, tudo depois é um centavo cada.
- Acredito (agora mais do que nunca) que, a longo prazo, resolveremos modelos pequenos (parâmetros de 70b ou menos) que podem ser executados localmente, em vez de modelos gigantes com trilhões de parâmetros em execução na nuvem.
E eu ainda acredito que esses pontos são amplamente verdadeiros. Mas isso não é suficiente. Vamos passar por eles um por um, começando com a eficiência.
Melhores algoritmos
Alguns anos atrás, vi um bom número de trabalhos sobre modelos mais eficientes. Lembro -me de muitos artigos sobre a poda das redes neurais (eliminando nós que contribuem pouco para o resultado) e outras técnicas. Artigos que abordam a eficiência ainda estão sendo publicados – principalmente, o recente “do DeepMind” “Mistura de Recursões” paper—however they aren’t as widespread. That is simply anecdata, and will maybe be ignored. Extra to the purpose, DeepSeek shocked the world with their R1 mannequin, which they claimed price roughly 1/10 as a lot to coach because the main frontier fashions. Quite a lot of commentary insisted that DeepSeek wasn’t being up entrance of their measurement of energy consumption, however since then a number of different Chinese language labs have launched extremely succesful fashions, with no gigawatt knowledge facilities in visão. segundo Muito mais barato para treinar. Não é a primeira vez que isso acontece – me disseram que a União Soviética desenvolveu algoritmos de compressão de dados surpreendentemente eficientes porque seus computadores estavam uma década atrás da nossa. Algoritmos melhores podem superar maiores contas de energia, melhores CPUs e mais GPUs, se os deixarmos.
O que há de errado com esta foto? A imagem é boa, mas grande parte da narrativa é centrada nos EUA e isso a distorce. Primeiro, é distorcido por nossa crença de que maior é sempre melhor: olhe para nossos carros, nossos SUVs, nossas casas. Estamos condicionados a acreditar que um modelo com um trilhão de parâmetros deve ser melhor do que um modelo com meros 70b, certo? Que um modelo que custa cem milhões de dólares Treinar tem que ser melhor do que aquele que pode ser treinado economicamente? Esse mito está profundamente incorporado em nossa psique. Segundo, é distorcido pela economia. Maior é melhor é um mito que os possíveis monopolistas jogam quando falam sobre a necessidade de knowledge facilities cada vez maiores, de preferência financiados com dólares de impostos. É um mito conveniente, porque convencer os possíveis concorrentes de que eles precisam gastar bilhões em knowledge facilities é uma maneira eficaz de não ter concorrentes.
Uma área que não foi suficientemente explorada é os modelos extremamente pequenos desenvolvidos para tarefas especializadas. Drew Breunig escreve Sobre o pequeno modelo de xadrez em Stockfish, o principal programa de xadrez do mundo: é pequeno o suficiente para ser executado em um iPhone e substituiu um modelo de uso geral muito maior. E isso derrotado profundamente Claude Sonnet 3.5 e GPT-4o.1 Ele também escreve sobre o parâmetro de 27 milhões Modelo de Raciocínio Hierárquico (HRM) Isso venceu modelos como Claude 3.7 na referência do ARC. O luar de Pete Warden faz transcrição de fala para texto em tempo actual no navegador-e é tão bom quanto qualquer modelo de ponta que eu já vi. Nenhum deles são modelos de uso geral. Eles não vão vibrar o código; Eles não escreverão as postagens do seu weblog. Mas eles são extremamente eficazes no que fazem. E se a IA cumprir seu destino de “desaparecer nas paredes”, de se tornar parte de nossa infraestrutura diária, precisaremos de modelos muito precisos e muito especializados. Teremos que nos libertar do mito tão maior é melhor.2
O custo da inferência
O objetivo de um modelo não deve ser treinado; é fazer inferência. Essa é uma simplificação bruta, mas parte do treinamento está fazendo trilhões de vezes de inferência e ajustando os bilhões de parâmetros do modelo para minimizar o erro. Uma única solicitação exige uma fração extremamente pequena do esforço necessário para treinar um modelo. Esse fato leva diretamente à economia das fundições de chip: a capacidade de processar o primeiro immediate custa milhões de dólares, mas uma vez que eles estão em produção, Processar um rápido custa frações de um centavo. Google tem reivindicado Esse processamento de um immediate de texto típico para Gêmeos leva 0,24 watts-hora, significativamente menor do que o necessário para aquecer a água para uma xícara de café. Eles também afirmam que os aumentos na eficiência do software program levaram a uma redução de 33x no consumo de energia no ano passado.
Obviamente, isso não é a história inteira: milhões de pessoas que provocam o ChatGPT aumentam, assim como o uso de módulos mais recentes de “raciocínio” que possuem uma caixa de diálogo interna estendida antes de chegar a um resultado. Da mesma forma, dirigir para o trabalho em vez de andar de bicicleta aumenta a temperatura international uma nanofração de um diploma – mas quando você multiplica a nanofração por bilhões de passageiros, é uma história diferente. É justo dizer que um indivíduo que usa ChatGPT ou Gemini não é um problema, mas também é importante perceber que milhões de usuários que batem em um serviço de IA podem se transformar em um problema rapidamente. Infelizmente, também é verdade que os aumentos de eficiência geralmente não levam a reduções no uso de energia, mas a resolver problemas mais complexos dentro do mesmo orçamento energético. Podemos estar vendo isso com modelos de raciocínio, modelos de geração de imagens e vídeos e outros aplicativos que agora estão se tornando financeiramente viáveis. Esse problema exige knowledge facilities de gigawatt? Não, não isso, mas é um problema que pode justificar a construção de knowledge facilities do Gigawatt.
Há uma solução, mas requer repensar o problema. Dizer às pessoas para usar o transporte público ou as bicicletas para seu trajeto é ineficaz (nos EUA), como estará dizendo às pessoas para não usarem a IA. O problema precisa ser repensado: redesenhar o trabalho para eliminar o trajeto (O’Reilly está 100% trabalho em casa), repensando a maneira como usamos a IA para que não exija modelos de parâmetros de trilhões de nuvem. Isso nos leva a usar a IA localmente.
Permanecendo native
Quase tudo o que fazemos com GPT-*, Claude-*, Gemini-*e outros modelos de fronteira podem ser feitos igualmente efetivamente em modelos muito menores em execução localmente: em uma pequena sala de máquinas corporativas ou mesmo em um laptop computer. A execução da IA localmente também o protege de problemas de disponibilidade, largura de banda, limites de uso e vazamento de dados privados. Esta é uma história que os possíveis monopolistas não querem que ouvamos. Novamente, este é um anedata, mas fiquei muito impressionado com os resultados que recebo ao executar modelos na faixa de parâmetros de 30 bilhões no meu laptop computer. Eu vibo a codificação e recebo o código principalmente correto que o modelo pode (geralmente) consertar para mim; Peço resumos de blogs e papéis e obtive excelentes resultados. Antrópico, Google e OpenAI estão competindo por décimos de ponto percentual em benchmarks altamente video games, mas duvido que essas pontuações de referência tenham muito significado prático. Eu adoraria ver um estudo sobre a diferença entre QWEN3-30B e GPT-5.
O que isso significa para os custos de energia? Não está claro. Os knowledge facilities do Gigawatt para fazer inferência se tornariam desnecessários se as pessoas inferem localmente, mas quais são as consequências de um bilhão de usuários que inferem inferência em laptops de ponta? Se eu der ao meu AIS native um problema difícil, meu laptop computer esquenta e dirige seus fãs. Está usando mais eletricidade. E os laptops não são tão eficientes quanto os knowledge facilities que foram projetados para minimizar o uso elétrico. Está tudo bem e bom zombar da Gigawatts, mas quando você está usando tanto poder, minimizar o consumo de energia economiza muito dinheiro. Economias de escala são reais. Pessoalmente, eu apostaria nos laptops: a computação com 30 bilhões de parâmetros será, sem dúvida, menos intensiva em energia do que a computação com 3 trilhões de parâmetros. Mas não vou prender a respiração esperando alguém fazer esta pesquisa.
Há outro lado nessa questão, e isso envolve modelos essa “razão”. Os chamados “modelos de raciocínio” têm uma conversa interna (nem sempre visível para o usuário), no qual o modelo “planeja” as etapas necessárias para responder ao immediate. Um artigo recente reivindicações que modelos menores de código aberto tendem a gerar muitos outros tokens de raciocínio do que modelos grandes (3 a ten vezes mais, dependendo dos modelos que você está comparando) e que o extenso processo de raciocínio se apóia na economia dos modelos menores. Os tokens de raciocínio devem ser processados, o mesmo que qualquer tokens gerado pelo usuário; Esse processamento incorre em cobranças (que o artigo discute) e, presumivelmente, as cobranças se relacionam diretamente ao poder.
Embora seja surpreendente que os pequenos modelos gerem mais tokens de raciocínio, não é surpresa que o raciocínio seja caro, e precisamos levar isso em consideração. O raciocínio é uma ferramenta a ser usada; Tende a ser particularmente útil quando um modelo é solicitado a resolver um problema em matemática. É muito menos útil quando a tarefa envolve a pesquisa de fatos, resumo, escrita ou recomendações. Pode ajudar em áreas como design de software program, mas provavelmente será um passivo por codificação generativa. Nesses casos, o processo de raciocínio pode realmente se tornar enganador – além de queimar tokens. Decidir como usar os modelos de maneira eficaz, estejam você executando -os localmente ou na nuvem, é uma tarefa que nos cai.
Ir aos gigantes modelos de raciocínio para a “melhor resposta possível” é sempre uma tentação, especialmente quando você sabe que não precisa da melhor resposta possível. É preciso alguma disciplina para se comprometer com os modelos menores – mesmo que seja difícil argumentar que o uso dos modelos de fronteira é menos trabalho. Você ainda precisa analisar a saída deles e verificar seus resultados. E confesso: por mais comprometido que seja os modelos menores, tendem a manter modelos na faixa de 30b e evito os modelos 1B – 5B (incluindo o excelente Gemma 3N). Esses modelos, tenho certeza, dariam bons resultados, usariam ainda menos energia e corriam ainda mais rápido. Mas ainda estou no processo de me afastar das suposições instintivas.
Maior não é necessariamente melhor; Mais poder não é necessariamente o caminho para o domínio da IA. Ainda não sabemos como isso vai acontecer, mas eu fizeríamos minhas apostas em modelos menores, funcionando localmente e treinados com a eficiência em mente. Sem dúvida, haverá algumas aplicações que exigem grandes modelos de fronteira – talvez gerando dados sintéticos para treinar os modelos menores – mas realmente precisamos entender onde os modelos de fronteira são necessários e onde não estão. Minha aposta é que eles raramente são necessários. E se nos libertarmos do desejo de usar o mais recente e maior modelo de fronteira apenas porque ele está lá – seja ou não, serve a seu objetivo melhor do que um modelo de 30b – não precisamos da maioria desses knowledge facilities gigantes. Não seja seduzido pelo complexo industrial da AI.
Notas de rodapé
- Não estou ciente dos jogos entre os meias e os modelos Claude 4, Claude 4.1 e GPT-5 mais recentes. Há todas as razões para acreditar que os resultados seriam semelhantes.
- Kevlin Henney faz um ponto relacionado em “Escala de picos falsos. ”