Como DeepSeek quebrou a barreira de custos com US$ 5,6 milhões


A sabedoria convencional da IA ​​sugere que construir modelos de linguagem grande (LLMs) requer grandes recursos – normalmente milhares de milhões em investimento. Mas DeepSeekuma startup chinesa de IA, acabou de quebrar esse paradigma com sua mais recente conquista: desenvolver um modelo de IA de classe mundial por apenas US$ 5,6 milhões.

DeepSeek Modelo V3 pode enfrentar gigantes da indústria como Gêmeos do Google e As últimas ofertas da OpenAItudo isso usando uma fração dos recursos de computação típicos. A conquista chamou a atenção de muitos líderes da indústria, e o que torna isto particularmente notável é que a empresa conseguiu isso apesar de enfrentar restrições de exportação dos EUA que limitaram o seu acesso aos mais recentes Chips Nvidia.

A Economia da IA ​​Eficiente

Os números contam uma história convincente de eficiência. Embora os modelos de IA mais avançados exijam entre 16.000 e 100.000 GPUs para treinamento, o DeepSeek conseguiu apenas 2.048 GPUs em execução por 57 dias. O treinamento do modelo consumiu 2,78 milhões de horas de GPU em chips Nvidia H800 – notavelmente modesto para um modelo de 671 bilhões de parâmetros.

Para colocar isso em perspectiva, o Meta precisou de aproximadamente 30,8 milhões de horas de GPU – cerca de 11 vezes mais poder de computação – para treinar seu Modelo Lhama 3que na verdade tem menos parâmetros, 405 bilhões. A abordagem do DeepSeek se assemelha a uma masterclass em otimização sob restrições. Trabalhando com GPUs H800 – chips de IA projetados pela Nvidia especificamente para o mercado chinês com capacidades reduzidas – a empresa transformou potenciais limitações em inovação. Em vez de usar soluções prontas para uso para comunicação do processador, eles desenvolveram soluções personalizadas que maximizaram a eficiência.

Embora os concorrentes continuem a operar sob a suposição de que são necessários investimentos maciços, a DeepSeek está demonstrando que a engenhosidade e a utilização eficiente de recursos podem nivelar o campo de jogo.

Projetando o Impossível

A conquista do DeepSeek reside na sua abordagem técnica inovadora, mostrando que às vezes os avanços mais impactantes vêm do trabalho dentro de restrições, em vez de investir recursos ilimitados em um problema.

No centro desta inovação está uma estratégia chamada “balanceamento de carga auxiliar sem perdas”. Pense nisso como orquestrar um enorme sistema de processamento paralelo onde, tradicionalmente, você precisaria de regras e penalidades complexas para manter tudo funcionando perfeitamente. DeepSeek virou essa sabedoria convencional de cabeça para baixo, desenvolvendo um sistema que mantém naturalmente o equilíbrio sem a sobrecarga das abordagens tradicionais.

A equipe também foi pioneira no que chama de “Predição de Multi-Token” (MTP) – uma técnica que permite ao modelo pensar no futuro, prevendo vários tokens de uma só vez. Na prática, isso se traduz em uma impressionante taxa de aceitação de 85-90% para essas previsões em vários tópicos, proporcionando velocidades de processamento 1,8 vezes mais rápidas do que as abordagens anteriores.

A própria arquitetura técnica é uma obra-prima de eficiência. O V3 do DeepSeek emprega uma abordagem mista de especialistas com 671 bilhões de parâmetros totais, mas aqui está a parte inteligente – ele ativa apenas 37 bilhões para cada token. Esta ativação seletiva significa que eles obtêm os benefícios de um modelo massivo, mantendo ao mesmo tempo a eficiência prática.

A escolha da estrutura de treinamento de precisão mista do 8º PQ é outro salto em frente. Em vez de aceitar as limitações convencionais de precisão reduzida, eles desenvolveram soluções personalizadas que mantêm a precisão e reduzem significativamente os requisitos computacionais e de memória.

Efeitos cascata no ecossistema da IA

O impacto das conquistas da DeepSeek vai muito além de apenas um modelo de sucesso.

Para o desenvolvimento europeu da IA, este avanço é particularmente significativo. Muitos modelos avançados não chegam à UE porque empresas como a Meta e a OpenAI não podem ou não querem se adaptar ao Lei da UE sobre IA. A abordagem da DeepSeek mostra que a construção de IA de ponta nem sempre requer enormes clusters de GPU – trata-se mais de usar os recursos disponíveis de forma eficiente.

Este desenvolvimento também mostra como as restrições à exportação podem realmente impulsionar a inovação. O acesso limitado da DeepSeek a {hardware} de última geração forçou-os a pensar de forma diferente, resultando em otimizações de software program que talvez nunca tivessem surgido em um ambiente rico em recursos. Este princípio poderia remodelar a forma como abordamos o desenvolvimento da IA ​​a nível world.

As implicações da democratização são profundas. Enquanto os gigantes da indústria continuam a queimar bilhões, a DeepSeek criou um modelo para o desenvolvimento de IA eficiente e econômico. Isto poderia abrir portas para pequenas empresas e instituições de investigação que anteriormente não conseguiam competir devido a limitações de recursos.

No entanto, isto não significa que a infraestrutura informática de grande escala esteja a tornar-se obsoleta. A indústria está mudando o foco para dimensionar o tempo de inferência – quanto tempo um modelo leva para gerar respostas. À medida que esta tendência continua, ainda serão necessários recursos computacionais significativos, provavelmente ainda mais com o tempo.

Mas o DeepSeek mudou fundamentalmente a conversa. As implicações a longo prazo são claras: estamos a entrar numa period em que o pensamento inovador e a utilização eficiente dos recursos podem ser mais importantes do que o simples poder computacional. Para a comunidade de IA, isto significa concentrar-se não apenas nos recursos que temos, mas também na forma como os utilizamos de forma criativa e eficiente.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *