Controlar gastos com Codegen – O'Reilly -itstec.com.br. All rights reserved.

Este artigo apareceu originalmente em Médio. Tim O’Brien nos deu permissão para repassar aqui no Radar.

Quando você trabalha com ferramentas de IA como Cursor ou GitHub Copilot, o verdadeiro poder não é apenas ter acesso a modelos diferentes – é saber quando usá-los. Alguns trabalhos estão OK com Auto. Outros precisam de um modelo mais forte. E às vezes você deve desistir e trocar se continuar gastando dinheiro em um problema complexo com um modelo de qualidade inferior. Do contrário, você perderá tempo e dinheiro.

E esta é a discussão que falta na geração de código. Existem alguns “acampamentos” aqui; a maioria das pessoas que escrevem sobre isso parece ver isso como uma experiência fantástica e divertida de “codificação vibratória”, e algumas pessoas estão tentando usar essa tecnologia para entregar produtos reais. Se você está nessa última categoria, provavelmente já começou a perceber que pode gastar um fantástico quantidade de dinheiro se você não tiver uma estratégia para seleção de modelos.

Vamos ser bem específicos: se você se inscrever no Cursor e gastar US$ 20/mês em uma assinatura usando o Auto e estiver satisfeito com o resultado, não há muito com que se preocupar. Mas se você está começando a administrar agentes em paralelo e está pagando pelo consumo de tokens além de uma assinatura mensal, esta postagem fará sentido. Na minha própria experiência, um único desenvolvedor trabalhando sozinho pode facilmente gastar entre US$ 200 e US$ 300/dia (ou quatro vezes esse valor) se estiver tentando realizar um projeto e tiver optado pelo modelo mais caro.

E – se você é uma empresa e dá aos seus desenvolvedores acesso ilimitado a essas ferramentas – prepare-se para algumas surpresas.

Minha escada de escalada para modelos…

Comece aqui: Automático. Deixe o Cursor direcionar para um modelo forte com boa capacidade. Se a qualidade da saída diminuir ou o loop ocorrer, agrave o problema. (O cursor diz explicitamente que Auto seleciona entre modelos premium e mudará quando a produção for degradada.)
Tarefas de média complexidade: Sonnet 4/GPT‑5/Gemini. Use para tarefas focadas em alguns arquivos: testes de unidade robustos, refatoradores direcionados, remodelações de API.
Levantamento pesado: Soneto 4 – 1 milhão. Se eu preciso fazer algo que requer mais contexto, mas ainda não quero pagar caro, estou começando a evoluir modelos que não maximizam rapidamente o contexto.
Levantamento ultrapesado: Opus 4/4.1. Use isto quando a tarefa abrange vários projetos ou requer um contexto longo e um raciocínio cuidadoso. voltar assim que a grande mudança estiver concluída. (A Anthropic posiciona o Opus 4 como um modelo de raciocínio profundo e de longo horizonte para codificação e fluxos de trabalho de agentes.)

Auto funciona bem, mas há momentos em que você pode sentir que selecionou o modelo errado e, se usar esses modelos o suficiente, saberá quando está olhando a saída do Gemini Professional pela verbosidade ou os modelos ChatGPT pela maneira como eles resolvem um problema.

Admito que minhas escolhas pesadas e ultrapesadas aqui são tendenciosas para os modelos com os quais tive mais experiência – sua própria experiência pode variar. Ainda assim, você também deve ter uma lista de escalonamento semelhante. Comece com Auto e atualize apenas se necessário; caso contrário, você aprenderá algumas lições sobre quanto isso custa.

Cuidado com os custos do modelo de “pensamento”

Alguns modelos apoiam o “pensamento” explícito (raciocínio mais longo). Útil, mas mais caro. Os documentos do Cursor observam que permitir o pensamento em versões específicas do Sonnet pode contar como dois pedidos na contabilidade de solicitações de equipe e nos planos individuais, a mesma ideia se traduz em mais fichas queimado. Resumindo, o modo de pensar é excelente – use-o quando precisar.

E quando você precisa disso? Minha regra aqui é que quando eu já entendo o que precisa ser feito, quando estou pedindo para que um teste unitário seja polido ou um método seja executado no padrão de outro… geralmente não preciso de um modelo de pensamento. Por outro lado, se eu pedir para analisar um problema e propor várias opções para eu escolher, ou (algo que faço com frequência) quando peço para desafiar minhas decisões e bancar o advogado do diabo, pagarei o prêmio pelo melhor modelo.

Modo Max e quando usá-lo

Se você precisar de janelas de contexto gigantes ou de raciocínio estendido (por exemplo, alterações abrangentes em mais de 20 arquivos), Modo máximo pode ajudar, mas consumirá mais uso. Faça do Modo Max um ferramenta temporárianão seu padrão. Se você precisa constantemente ativar o Modo Max, há uma boa likelihood de que você esteja “aplicando demais” essa tecnologia.

Se precisar consumir um milhão de tokens por horas a fio? Isso geralmente é uma dica de que você precisa de outro programador. Falaremos mais sobre isso mais tarde, mas o que tenho visto com muita frequência são gerentes que pensam que isso é como a “codificação de vibração” que estão testemunhando. Alerta de spoiler: Vibe coding é aquilo que as pessoas fazem em apresentações porque leva cinco minutos para fazer um videogame bobo. Não é 100% programação, e para usar codegen, aqui está o segredo: você tem que entender como programar.

O Modo Max e os modelos de pensamento não são um atalho e nem um substituto para bons programadores. Se você acha que sim, estará pagando muito caro por um código que um dia terá que ser reescrito por um bom programador usando essas mesmas ferramentas.

Dica mais importante: observe sua fatura conforme ela acontece

A dica mais importante é monitorar regularmente sua utilização e taxas de uso no Cursor, já que elas aparecem um ou dois minutos após a execução de algo. Você pode ver o uso por minuto, o número de tokens consumidos e, em alguns casos, quanto está sendo cobrado além da sua assinatura. Crie o hábito de verificar algumas vezes por dia, especialmente durante sessões intensas e, de preferência, a cada meia hora. Isso ajuda você a controlar custos excessivos, como gastar US$ 100 por hora, antes que eles saiam do controle, o que é perfeitamente possível se você estiver executando muitos agentes paralelos ou realizando um trabalho que exige muitos recursos. Prestar atenção garante que você mantenha o controle do uso e da fatura.

Acompanhe e evite loops

A outra coisa que você precisa fazer é acompanhar o que funciona e o que não funciona. Com o tempo, você perceberá que é muito fácil cometer erros e que os próprios modelos às vezes podem cair em loops. Você pode dar uma instrução e, em vez de resolvê-la, o sistema continua executando o mesmo processo continuamente. Se você não estiver prestando atenção, poderá gastar muitos tokens – e muito dinheiro – sem realmente obter saída de som. É por isso que é essencial observar atentamente suas sessões e estar pronto para interrompê-las se algo parecer travado.

Outra armadilha é levar os modelos além dos seus limites. Há tarefas que eles não conseguem realizar bem e, quando isso acontece, é tentador reformular a solicitação e perguntar novamente, na esperança de um resultado melhor. Na prática, isso muitas vezes leva ao mesmo ciclo de fracasso, exceto que você paga a conta de cada tentativa. Saber onde estão os limites e quando parar é basic.

Uma maneira prática de ficar por dentro disso é manter um diário do que funcionou e do que não funcionou. Registre solicitações, resultados e notas sobre eficiência para que você possa aprender com a experiência em vez de repetir erros caros. Combinado com o acompanhamento de suas métricas de uso ao vivo, esse hábito o ajudará a refinar sua abordagem e a evitar desperdício de tempo e dinheiro.

Controlar gastos com Codegen – O’Reilly

Minha escada de escalada para modelos…

Cuidado com os custos do modelo de “pensamento”

Modo Max e quando usá-lo

Dica mais importante: observe sua fatura conforme ela acontece

Acompanhe e evite loops

Deixe um comentário Cancelar resposta

DJI tem aprovação da FCC para o Avata 360 (não, NÃO está proibido!)

Revisão: Equipment BetaFPV Aquila20 HD FPV – Melhor que a versão analógica?

Rota de preservação de simetria para isoladores de ordem superior – Physics World

Nanofibras ainda lutam pelo sucesso industrial após 25 anos

Sensor de dor autocurativo feito de gelatina pode dar aos robôs reflexos semelhantes aos humanos

Quando o calor se transfer lateralmente – Physics World

CypressTel fala sobre SD-WAN, SASE e é a porta de entrada para a China

4G em todas as aldeias da Índia até junho de 2026: Jyotiraditya Scindia

Por que o ‘chato’ VS Code continua vencendo

Apresentamos instâncias X8aedz do Amazon EC2 com tecnologia de processadores AMD EPYC de 5ª geração para cargas de trabalho com uso intensivo de memória

CypressTel fala sobre SD-WAN, SASE e é a porta de entrada para a China

Por que o ‘chato’ VS Code continua vencendo