A mensagem do chefe da Nvidia, Jensen Huang, no GTC esta semana, é que a IA não se trata mais apenas de modelos ou chips, mas de monetizar a inferência em escala – onde os tokens se tornam a unidade central de valor e os information facilities evoluem para fábricas geradoras de receita.
Em suma – o que saber:
IA de token – A Nvidia usou o GTC para mudar a narrativa da indústria da infraestrutura de IA para a economia de IA, com tokens como mercadoria para definir valor, preços e concorrência.
Motor de IA – Sua plataforma Blackwell traz ganhos enormes (a serem superados por Rubin) e abre caminho para que sistemas otimizados (não computação bruta) definam a lucratividade.
IA em camadas – A entrega escalonada de tokens fará com que as ‘fábricas de IA’ sejam monetizadas e as empresas maximizem o desempenho da IA por watt, preparando o terreno para um novo modelo operacional de IA.
Muitas notícias da festa anual da FTC da Nvidia em San Diego; algumas delas são interessantes – o voltado para telecomunicações Coisas AI-RAN com T-Cellular e Nokiacoberto ontem (mais seu IoT funciona com AT&T e Ciscoanunciado hoje); a ideia de um nova categoria de “computadores agentes” (um sucesso mais provável do que óculos de IA, certamente); todo o foco oportuno na IA física, animado por agentes que executam modelos de inferência na borda. Mas, honestamente, é difícil entender (mais de 20 comunicados de imprensa) e, realmente, as tendências atuais da indústria são os itens do roteiro de ontem para a Nvidia, e o maior ponto de discussão no GTC está no enquadramento – que, hoje em dia, outline todo o cenário tecnológico.
Como tal, a palestra de Jensen Huang durante sua palestra no GTC sobre a arquitetura Grace Blackwell CPU/GPU da empresa, aliada à sua fiação em escala de rack NVLink e núcleos tensores FP4 (além de “novos algoritmos” e “kernels otimizados”), foi muito interessante. Mas houve algum crescimento e um discurso de vendas grandioso. Internamente, 2025 foi um “ano de inferência” para a empresa, disse Huang, que “impulsionou esse ponto de inflexão” – onde, por um lado, ela recebeu pedidos malucos de GPUs Hopper de construtores de modelos e provedores de nuvem e ganhou dinheiro descontroladamente e, por outro lado, percebeu que não poderia durar (a demanda period infinita, a capacidade não), e tomou medidas para reinventar sua arquitetura seminal Hopper.
Huang disse: “Dedicamos tudo a isso. Aproveitamos uma probability gigante – enquanto Hopper estava no auge e apenas cozinhando – para levá-lo para o próximo nível. Reestruturamos completamente o sistema, desagregamos-o completamente e criamos o NVLink72. A forma como ele é construído, fabricado e programado mudou completamente. Foi uma aposta gigante e não foi fácil para nossos parceiros.” Deixe alguns agradecimentos e aplausos. O combo atual da Blackwell oferece melhorias de rendimento 50 vezes (!) Em relação à plataforma Hopper, aparentemente; ele processa “tokens” a uma taxa de 5.000 por segundo, contra cerca de 700 em uma configuração Hopper – e seu antepassado sustentou toda a mudança para IA generativa.
“Porque um trilhão de dólares é uma quantidade enorme… e você precisa ter whole confiança (sua infraestrutura de IA) será utilizada – e terá desempenho e economia, e terá vida útil pelo tempo que você precisar… (A nossa) é a única infraestrutura no mundo que você pode construir em qualquer lugar do mundo com whole confiança – em qualquer nuvem, qualquer empresa, qualquer país”, disse Huang. A arquitetura Grace Blackwell da Nvidia é “fungível para tudo isso”, disse ele, referindo-se à IA multimodal em todos os domínios (“em linguagem e biologia, computação gráfica, visão computacional; em fala, proteínas e produtos químicos, robótica”). O que torna a Nvidia a “plataforma de maior confiança”, disse ele.
Uso diversificado
Discurso de vendas, viu? Mas que tal. E foi aí que Huang entrou em comentários mais esclarecedores, sem dúvida, sobre a direção da viagem; onde a Nvidia também disse ao mundo como pensar sobre IA, e o mundo ficou atento. Sessenta por cento dos negócios da Nvidia são com os cinco principais hiperscaladores, inclusive para migrar cargas de trabalho corporativas legadas (pesquisa na Web e filtragem de conteúdo); o resto está “em todo lugar”, disse Huang, listando cenários de nuvem regionais, soberanos e industriais para inúmeras aplicações científicas e comerciais. “A diversidade da IA é também a sua resiliência”, disse ele. Cada centímetro de capacidade será esgotado; cada dólar de investimento será maximizado.
“Não importa quão grande, não importa quão rápido, tudo será consumido”, disse ele. Foi aí que a versão AI do antigo argumento de tecnologia (mais rápido/maior/melhor) parou – tipo de – e começaram as ideias sobre um novo mundo de IA. “É aqui que torturo todos vocês, mas é muito importante”, disse Huang. “Todo mundo está procurando terreno e energia. Mas uma vez que você constrói, você fica com energia limitada… Sua carga de trabalho é inferência, seus tokens são sua mercadoria e essa computação é sua receita. Então você quer ter certeza de que a arquitetura está otimizada. No futuro, todos os provedores de telecomunicações, empresas de informática, empresas de nuvem, empresas de IA – todas as empresas, ponto last – estarão pensando na eficácia dos tokens.”
No palco, Huang ficou na frente de um gráfico (veja abaixo, à esquerda) mostrando o rendimento (tokens por segundo em um nível de potência fixo) no eixo vertical e a velocidade do token (taxa de resposta por etapa de inferência) no eixo horizontal. “Veja bem, todos os CEO do mundo estudarão seus negócios a partir de agora da maneira que estou prestes a descrever – porque esta é a sua fábrica de tokens; esta é a sua fábrica de IA; estas são as suas receitas. Não há dúvida.” Os information facilities não são mais apenas centros de computação, mas “fábricas de IA” – de acordo com a nova terminologia – que produzem tokens em escala e medem a eficiência em produtividade, latência e receita por watt. Que é o que todo chefe examinará: a eficiência simbólica, como uma métrica operacional central.

Este é o ponto essential, então: o token de IA, esse pedaço de texto ou equivalente de entrada/saída multimodal em uma única operação de inferência, é uma mercadoria. Deveria ser e será monetizado, disse Huang. O gráfico é sobreposto com uma classificação de desempenho para Grace Blackwell (mais fiação NVLink72, mais núcleos tensores FP4, além de novos algoritmos e kernels em “co-design extremo”), versus Grace Hopper e a “concorrência” da Nvidia – conforme revisado pela SemiAnalysis. “Uma fábrica de um gigawatt nunca se tornará dois – as leis dos átomos, as leis da física. Então você quer impulsionar o número máximo de tokens – o produto da fábrica. Você quer estar no topo dessa curva, o mais alto que puder.”
Potência otimizada
Ele continuou: “Quanto mais rápida a inferência, mais rápido você responde; mas quanto mais rápida a inferência, maior o modelo – mais contexto, mais tokens. Portanto, o Y é o rendimento e o X é a inteligência. Quanto mais inteligente a IA, menor o rendimento. Faz sentido; você está pensando por mais tempo.” Por outras palavras, o cálculo visa equilibrar a inteligência e a produção – quando uma negocia contra a outra. Um modelo mais capaz – que raciocina por mais tempo, extrai mais contexto, gera respostas mais ricas – consome mais computação e produz menos tokens. Velocidade e quantity sacrificam profundidade; a sofisticação mata o rendimento. Conseqüentemente, o caso da pontuação de saída de Grace Blackwell, 50 vezes mais potência por watt.
É uma estatística do SemiAnalysis. Huang disse: “A Lei de Moore nos daria duas vezes, provavelmente uma vez e meia. Você poderia esperar esse tipo de salto – versus Hopper H200. (Mas) ninguém esperava (50) vezes maior.” Mas como monetizar? Bem, da mesma forma que todo o resto. Huang tem outro gráfico, além (acima, à direita), que diz que suas pontuações de desempenho 50 vezes “rei da inferência” também oferecem custo de token 35 vezes melhor (em comparação com Hopper; um pouco menos em comparação com a “concorrência”) – em uma medida de amostra de algo ao norte de 200 tokens por segundo (TPS) em modelos pequenos/eficientes (entre sete e 13 bilhões de parâmetros). “Nosso custo por token é o mais baixo do mundo”, disse ele.

Ele reafirmou todo o discurso reduzido. “Eu já disse antes que a arquitetura errada, mesmo que seja gratuita, não é barata o suficiente”, disse ele. “Porque não importa o que aconteça, você ainda terá que construir um information middle de gigawatts, e essa fábrica, amortizada por 15 anos, custa cerca de US$ 40 bilhões. Mesmo quando você não investe nada nela, são US$ 40 bilhões. Então é melhor você se certificar de colocar o melhor sistema de computador naquela coisa para ter o melhor custo de token.” Huang mostrou outro gráfico (veja acima), um pouco especulativo, mas também impactante – sobre como o desempenho e a eficiência da IA impulsionarão os resultados da empresa e, em última análise, definirão como a inferência da IA é cobrada e paga. Isso fundamenta toda a discussão de 2026 no GTC.
“Este gráfico é o que importa”, disse Huang. É hipotético, mas parece completamente razoável e, como tal, inclui uma linha (verde) para mostrar o valor empresarial actual que o substituto Vera Rubin (NVL72) da Nvidia (“projetado para todas as fases da IA de agência, avançando todos os pilares da computação”) pode oferecer, mesmo em comparação com Grace Blackwell (NVL72). A plataforma Vera Rubin – em teste com hiperscaladores agora, nas lojas ainda este ano – é voltada para treinamento de modelo multimodal, inferência contínua e forte integração de rack GPU/CPU. É a nova base da empresa para clusters de grande escala em ‘fábricas’ de IA de megawatts de gigawatts.
Serviço em camadas
Um vídeo de advertising and marketing afirma que oferece 3,6 EFLOPS no FP4 com NVLink de parede a parede de 260 TB/s – um “40 milhões de vezes” avanço na plataforma DGX-1 authentic da Nvidia há uma década, que apresentava oito GPUs Pascal entregando 170 TFLOPS e NVLink de primeira geração. Huang continuou novamente: “O comprimento do token, dependendo da aplicação, continua a crescer – de talvez cem mil tokens para talvez milhões. O comprimento da saída do token também está crescendo. E tudo isso influencia o advertising and marketing e o preço dos tokens futuros, em última análise. Os tokens são a nova mercadoria. E como todas as mercadorias, uma vez que atinge a inflexão e amadurece, ele será segmentado em partes diferentes.”
Para a monetização de tokens de IA, então: a Nvidia propõe preços escalonados com base na velocidade de transferência: de grátis (alto rendimento, baixa velocidade), já que a IA é consumida hoje, por meio de planos médio (US$ 3 por milhão), alto (US$ 6) e premium (US$ 45) – e “talvez no dia” para um pacote premium “porque você está em um caminho crítico, ou fazendo uma longa pesquisa”. Huang disse: “E US$ 150 por um milhão de tokens simplesmente não é uma coisa – 50 milhões de tokens por dia como uma equipe de pesquisa, a US$ 150 por milhão. Portanto, acreditamos que este é o futuro. É para onde a IA quer ir. É onde está hoje (gratuito), que é onde ela teve que começar a estabelecer seu valor e utilidade. No futuro, você verá que os serviços abrangem tudo isso.”

E então ele foi para um novo gráfico (veja acima; siga as instruções) e voltou ao discurso de vendas (como é seu direito): “Esta é Grace Blackwell, e esta é Vera Rubin”, disse ele, e San Diego explodiu em uma salva de palmas (revirar os olhos). “Pense no que acabou de acontecer. Em cada nível, aumentamos a taxa de transferência e, no nível (premium; 400 TPS; US$ 45) – seu ASP mais alto e segmento mais valioso – aumentamos em 10 vezes (veja o lado direito, Blackwell vs Rubin NVL72). Isso (desempenho premium) é incrivelmente difícil de fazer aqui. Este é o benefício do NVLink72, este é o benefício da latência extremamente baixa, este é o benefício da extrema co-design – que podemos mudar toda a área.
“O que isso significa para os clientes? Suponha que eu pegue tudo isso e multiplique novamente – suponha que eu pegue 25% da minha energia e use-a no nível gratuito; 25% no nível médio; 25% no nível alto; e 25% no nível premium. Meu information middle tem um gigawatt. Então, eu decido como quero distribuir (a energia). O nível gratuito me permite atrair mais clientes; o nível premium me permite atender meus clientes mais valiosos. E a combinação, o produto de tudo isso, (traz) suas receitas. As receitas que você pode gerar com Vera Rubin – neste exemplo simplista – são cinco vezes maiores (em comparação com Grace Blackwell; uma oportunidade de US$ 150 bilhões, diz o slide).
Ele finalizou: “Então, Vera Rubin – você deve chegar aí o mais rápido possível”.
