códigomadrugada

iaclaude-codeprodutividade

Como economizar tokens no Claude Code

Claude Code fica caro quando o contexto cresce sem controle. Veja técnicas concretas para reduzir o consumo de tokens sem abrir mão da qualidade.

Desenvolvedor de madrugada monitorando consumo de tokens do Claude Code no terminal
Código da Madrugada25 de maio de 20268 min de leitura

Você olhou o /cost no meio de uma sessão e levou um susto. Ou chegou na quarta-feira com o limite do Pro estourado, a semana ainda não acabou, e o agente parou de responder.

Não é impressão. Claude Code consome tokens de forma agressiva quando o contexto não é gerenciado, e dá pra cortar 40-60% do gasto sem sacrificar nada na qualidade do código. As técnicas aqui são concretas, testadas, e fazem diferença já na primeira sessão.

Por que o contexto cresce tão rápido

Cada sessão do Claude Code é uma janela de contexto que vai crescendo a cada turno. A primeira mensagem tem só o seu pedido. Mas depois de 20 minutos de trabalho, o contexto inclui o conteúdo de vários arquivos lidos, as respostas anteriores, os outputs de ferramentas, resultados de testes, logs de erro, além de tudo que o agente decidiu carregar automaticamente ao explorar o projeto.

Numa sessão média com um projeto .NET de porte médio, chegar em 100k tokens em meia hora não é exceção. Em sessões exploratórias (o agente lendo vários arquivos pra entender a estrutura antes de qualquer edição), pode ultrapassar 200k.

Cada token custa. No plano Pro (US$20/mês, cerca de R$110-120 dependendo da cotação), a janela de uso se renova a cada 5 horas, mas com sessões pesadas ela vai embora rápido. E na API, os custos escalam: Sonnet 4.6 custa US$3 por milhão de tokens de entrada e US$15 por milhão de saída. Uma sessão descuidada pode custar mais que o esperado.

Mas a maioria dos gastos excessivos tem a mesma causa raiz: contexto mal gerenciado. E isso tem solução técnica.

Técnica 1: CLAUDE.md focado e enxuto

O arquivo CLAUDE.md é lido no início de toda sessão e incluído como contexto em cada mensagem enviada ao agente. Esse detalhe que muita gente não percebe.

Um CLAUDE.md de 5.000 tokens descrevendo toda a arquitetura do projeto, histórico de decisões, configurações de ambiente e preferências pessoais vai custar esses 5.000 tokens multiplicados pelo número de mensagens da sessão. Numa sessão de 40 mensagens, são 200k tokens só de contexto fixo.

A regra prática: mantenha o CLAUDE.md abaixo de 500 tokens. Inclua só o que o agente precisa saber pra tomar decisões corretas na ausência de instrução explícita:

# API de pedidos (.NET 9 + PostgreSQL)

## Stack
- ASP.NET Core Minimal API
- Entity Framework Core + Npgsql
- xUnit para testes

## Convenções
- Nomes de variáveis e métodos em inglês
- Migrations via `dotnet ef migrations add NomeDaMigration`
- Testes em `tests/` (mesmo namespace com sufixo `.Tests`)

## Restrições importantes
- Nunca usar `.Result` ou `.Wait()` em código async
- Não commitar `.env` ou `appsettings.Development.json`

Menos de 300 tokens. Suficiente pra evitar os erros mais custosos de corrigir.

CLAUDE.md enxuto aberto no VS Code em modo escuro

O que não precisa estar no CLAUDE.md: histórico do projeto, motivações de arquitetura, tutoriais internos, preferências de estilo que o agente vai ignorar de qualquer forma. Esses documentos são úteis pra você. Não pra ele.

Técnica 2: /compact e /clear no momento certo

Quando a sessão tá longa e você vai mudar de contexto, não deixe o histórico acumular passivamente.

/compact comprime o histórico da sessão atual num resumo. Mantém o que importa, descarta o volume. É a melhor opção quando você ainda precisa de algum contexto da sessão mas quer cortar o peso antes de continuar.

/clear zera tudo. Começa do zero. Ideal quando a tarefa mudou completamente: terminou de refatorar o módulo de pedidos, vai começar o módulo de notificações.

Na prática: use /compact a cada 30-40 minutos de trabalho contínuo. Antes de iniciar uma tarefa diferente, avalie se /clear faz mais sentido. O custo médio por tarefa cai consideravelmente só com esse hábito.

Só que tem um detalhe: /compact não é mágica. Se você compactar uma sessão onde o agente leu 30 arquivos, o resumo ainda vai conter as informações relevantes desses arquivos. O ganho é real, mas não elimina o contexto, só comprime ele.

Técnica 3: Pedidos cirúrgicos, não exploratórios

Esse é o ponto que mais impacta o custo e que menos gente ajusta no uso do dia a dia.

"Leia o projeto e me diz como melhorar a performance" vai fazer o agente ler dezenas de arquivos antes de responder. Cada arquivo lido entra no contexto e fica lá pelo resto da sessão.

"No arquivo Services/PedidoService.cs, o método ProcessarAsync faz uma query N+1 no EF. Adiciona um .Include() pra resolver" vai fazer o agente ler um arquivo, editar um método, fechar.

A diferença pode ser 10x no consumo de tokens pra um resultado equivalente.

Quanto mais específico o pedido, menos o agente precisa explorar. Dê a ele o arquivo, o método, o problema exato. Não dê o mapa inteiro do projeto esperando que ele encontre a moeda.

Dá pra escrever pedidos vagos e deixar o agente explorar. Em alguns casos faz sentido. Mas quando você sabe o que quer e onde está, pedido vago é gasto desnecessário.

Use Claude Code do jeito certo, do zero

Curso completo para devs C#/.NET: workflows, CLAUDE.md, sub-agents e controle de custo na prática.

Ver cursos

Técnica 4: Escolha o modelo certo pra cada tarefa

No Claude Pro e Max, você escolhe o modelo com /model dentro da sessão. Na API, você passa o parâmetro na chamada.

Regra prática: Sonnet pra 80% das tarefas, Opus quando realmente importa.

O Opus custa cerca de 8x mais tokens de saída que o Sonnet via API. E pra a maioria das tarefas rotineiras de desenvolvimento (refatoração com contexto claro, geração de testes xUnit, ajuste de endpoint, correção de bug com stack trace em mãos) o Sonnet entrega resultado equivalente.

Os casos onde Opus justifica: análise de código legado confuso sem documentação, tarefas que exigem raciocínio multi-step longo com pouca supervisão, arquitetura de sistemas onde erros de julgamento têm custo alto de reverter.

E tem uma nuance que a comunidade BR foi percebendo ao longo de 2025: modelos mais novos não são necessariamente mais econômicos que versões anteriores pra todas as tarefas. Antes de migrar de versão, teste se a qualidade pra sua tarefa específica justifica o custo. O benchmarking aqui paga em real.

Técnica 5: Monitore com /cost antes que vire problema

O comando /cost dentro de qualquer sessão mostra o consumo atual de tokens e o custo estimado. Parece óbvio, mas a maioria dos desenvolvedores só olha quando o limite estoura ou a fatura surpreende.

Olhar o /cost a cada 20-30 minutos cria consciência de consumo. Você começa a perceber padrões: quais tipos de pedido são caros (exploração de código desconhecido, geração de múltiplos arquivos de uma vez, debug sem contexto) e quais são baratos (edição pontual com localização exata).

Monitorando por uma semana você tem dados reais sobre o seu uso. Esses dados valem mais que qualquer regra geral.

A documentação oficial do Claude Code sobre gerenciamento de custos tem detalhes dos planos e como o orçamento funciona por janela de 5 horas. Vale ler antes de escolher entre Pro, Max 5x e Max 20x.

O que não faz tanta diferença (mitos comuns)

Escrever prompts mais curtos não resolve. O tamanho da sua mensagem é uma fração mínima do custo total. O que pesa é o contexto acumulado da sessão, não o seu pedido.

Usar menos ferramentas MCP também não é o ponto. Cada chamada de ferramenta tem um custo fixo pequeno. O custo está no contexto que fica carregado depois da chamada, não na chamada em si.

Sessões mais curtas não economizam automaticamente. Uma sessão de 15 minutos onde o agente leu 50 arquivos pra responder uma pergunta vaga pode custar mais que uma sessão de 2 horas de edições pontuais. A métrica é contexto acumulado, não tempo.

O foco real é: contexto permanente enxuto no CLAUDE.md, pedidos específicos com localização clara, compressão regular do histórico com /compact, e modelo adequado pra cada tipo de tarefa.

Quanto esperar gastar

Pra um desenvolvedor usando Claude Code como ferramenta principal de trabalho:

  • Uso moderado (1-2 horas/dia, projetos pequenos): Pro (US$20/mês) cobre bem
  • Uso intenso (4+ horas/dia, projetos médios a grandes): Max 5x (US$100/mês) ou API com Sonnet
  • Via API com boas práticas: um projeto .NET de porte médio fica entre US$5-20/mês

Sem gerenciamento de contexto, esses números podem triplicar. Com as técnicas acima, ficam dentro do esperado.


Se você tá começando com o Claude Code agora, leia primeiro o que é Claude Code e como ele funciona. As técnicas aqui fazem mais sentido com a base conceitual clara. E se você ainda tá decidindo entre Claude Code e GitHub Copilot, o comparativo direto para devs C#/.NET cobre custo, qualidade e casos de uso de cada ferramenta.

Uma observação honesta: economizar tokens não substitui aprender a usar o agente de forma eficaz. Um desenvolvedor que sabe dar contexto cirúrgico, estruturar tarefas em etapas e reconhecer quando não usar o agente vai gastar consistentemente menos do que quem joga texto solto esperando resultado. Tem muito a ver com não cair nas armadilhas do vibe coding. Os tokens são um sintoma. O hábito é a causa.

Perguntas frequentes

Por que o Claude Code consome tantos tokens?
O contexto da sessão cresce a cada mensagem: arquivos lidos, respostas anteriores, outputs de ferramentas, logs de erro. Sem gerenciamento, uma sessão longa com um projeto médio pode consumir 200k tokens ou mais.
Qual comando mostra o gasto de tokens em tempo real?
O comando /cost dentro de uma sessão do Claude Code mostra o consumo de tokens e o custo estimado da sessão atual. Checar a cada 20-30 minutos ajuda a identificar pedidos caros antes que o limite estoure.
Vale a pena usar Claude Sonnet em vez de Opus pra economizar?
Sim, para a maioria das tarefas de desenvolvimento. O Sonnet custa significativamente menos e entrega qualidade muito próxima do Opus para refatoração, geração de testes e resolução de bugs com contexto claro.
O /compact realmente economiza tokens?
Sim. O /compact comprime o histórico da conversa em um resumo, mantendo o contexto relevante mas reduzindo drasticamente os tokens carregados nas próximas mensagens. Use a cada 30-40 minutos de sessão contínua.
Quanto custa o Claude Pro por mês em reais?
O plano Pro custa US$20/mês (cerca de R$110-120 dependendo da cotação). Para uso intenso, o Max 5x (US$100/mês) pode sair mais econômico do que ficar travando no limite do Pro repetidamente.

Artigos relacionados

Quer aprender C# do zero ao avançado?

Cursos práticos em português, com projetos reais e acesso vitalício.

Conhecer o curso de C#