O que é billing medido por token e por que substituiu o flat-rate?

Billing medido por token cobra pelo consumo real de tokens de IA — não por assento fixo. Segundo o Gartner, o flat-rate era um loss leader que construiu adoção. Quando a adoção travou e o uso agentic explodiu, os vendors migraram para cobrança real. Entre março e junho de 2026, GitHub Copilot, Cursor, Windsurf, Anthropic, OpenAI Codex e Claude Code todos migraram para modelos de billing por token. O flat-rate morreu porque uma sessão autônoma de horas consome 1-3,5 milhões de tokens — custo que nenhum assento de US$ 10-40/mês cobre.

Por que os custos de IA para código subiram tanto?

O mecanismo é o Paradoxo de Jevons na prática. Segundo dados compilados de Reddit, Business Insider e Gartner, o preço por token caiu ~80% em 2025-2026, mas o gasto total com IA subiu. A arquitetura agentic é um multiplicador de tokens: mais turnos por tarefa, mais tokens por turno. Usuários Reddit relataram saltos de US$ 29/mês para ~US$ 750 (~26×) e de US$ 50 para ~US$ 3.000 (~60×). Segundo o Gartner, contas saltaram de US$ 20-100 para US$ 2.000-5.000 por desenvolvedor/mês, com casos extremos em US$ 20.000. O caveat: esses multiplicadores são de usuários agentic pesados. Quem usa chat pontual sente pouco.

O que é o Paradoxo de Jevons aplicado à IA para código?

O Paradoxo de Jevons diz que quando a eficiência de uso de um recurso aumenta, o consumo total desse recurso também aumenta — em vez de diminuir. Na IA para código, o preço por token caiu ~80%, mas a arquitetura agentic faz cada tarefa consumir mais tokens (1-3,5 milhões por tarefa em alguns casos). Mais eficiência por token gera mais consumo de tokens. Segundo o CPO do GitHub Mario Rodriguez, o modelo atual de premium requests não é mais sustentável porque uma pergunta rápida e uma sessão autônoma de horas podem custar o mesmo ao usuário.

Como gerenciar o spend de tokens sem travar a produtividade?

Segundo o Gartner, 63% das organizações já implementam controles de spend. A abordagem prática é: (1) auditar o spend atual por desenvolvedor e tipo de uso, (2) implementar roteamento por tier de modelo — tarefas simples em modelos baratos, complexas em modelos de ponta, (3) definir guardrails de budget por feature com alertas, não cortes abruptos, (4) adotar FinOps para IA como disciplina formal. A Uber impôs teto de US$ 1.500/mês por engenheiro. A Tokenomics Foundation, lançada pela Linux Foundation no FinOps X, está expandindo a spec FOCUS para spend baseado em tokens. A disciplina de tokens não vai emergir por escolha do desenvolvedor sozinha — precisa de estrutura organizacional.

Billing Medido por Token: Por Que o Preço Flat-Rate para IA Morreu

O FAQ da comunidade do GitHub Copilot tem 904 downvotes e 22 upvotes. Isso resume a transição que aconteceu entre março e junho de 2026: toda ferramenta de IA para código migrou para billing medido por token. O flat-rate morreu. E os números reais são mais dramáticos do que qualquer projeção.

A migração em massa para billing medido

Entre março e junho de 2026, seis ferramentas principais migraram de per-seat flat para billing medido por token:

GitHub Copilot (1 de junho): trocou Premium Request Units por AI Credits. Quando os créditos acabam, o serviço para. Pro: US$ 10/mês com 15 créditos. Pro+: US$ 39 com 70. Max: US$ 100 com 200.
Cursor (1 de junho): reestruturou Teams com pools duplos de uso. Standard US$ 40/seat, Premium US$ 120/seat com 5× uso.
Windsurf (19 de março): substituiu créditos por cotas diárias/semanais. Pro US$ 15-20, Max US$ 200. Rebatizado como Devin Desktop em junho.
Anthropic (15 de abril): enterprise migrou de per-seat flat para per-token com commitment obrigatório.
Claude Code (15 de junho): billing split — sessões interativas ficam no subscription, uso programático (Agent SDK) vai para pool de créditos separado a taxas full de API.
OpenAI Codex (2 de abril): de per-message para token-based.

Segundo o Gartner, o flat-rate era um loss leader que construiu adoção. Adoção travada, cobrança real começou.

Os números reais

Os multiplicadores de custo são vertiginosos. Segundo relatos compilados de Reddit, Business Insider e Gartner:

Usuário Reddit: de US$ 29/mês para ~US$ 750 (~26×).
Outro usuário Reddit: de US$ 50 para ~US$ 3.000 (~60×).
Pro+ subscriber projetado em US$ 847/mês, segundo o Business Insider.
Editor da Visual Studio Magazine: queimou 82% dos 1.500 créditos grátis no Dia 1.
Uber: US$ 500-2.000 por engenheiro/mês (de ~US$ 150-250).
Segundo o Gartner, contas saltando de US$ 20-100 para US$ 2.000-5.000 por desenvolvedor/mês, com casos extremos em US$ 20.000.

O caveat essencial: esses multiplicadores são de usuários agentic pesados. Code completions e Next Edit continuam grátis no Copilot. Quem usa chat pontual sente pouco. Quem roda sessões autônomas de horas sente tudo. A diferença entre chat casual e agentic autônomo é a diferença entre um café e um aluguel.

O Paradoxo de Jevons na prática

O mecanismo por trás da explosão de custos é o Paradoxo de Jevons. Preço por token caiu ~80% em 2025-2026. Gasto total com IA subiu. Por quê? A arquitetura agentic é um multiplicador de tokens: mais turnos por tarefa, mais tokens por turno. Uma tarefa pode consumir 1-3,5 milhões de tokens. Power users gastando US$ 1.800+/mês.

Segundo o CPO do GitHub Mario Rodriguez: uma pergunta rápida de chat e uma sessão autônoma de horas podem custar o mesmo ao usuário. O modelo atual de premium requests não é mais sustentável. Quando o custo marginal de uma sessão autônoma é 100× o custo de um chat, o flat-rate se torna um buraco no balanço.

A resposta do mercado

A Linux Foundation lançou a Tokenomics Foundation (3 de junho de 2026) no FinOps X, expandindo a spec FOCUS para spend baseado em tokens. Segundo o Gartner, custos de IA para código vão ultrapassar o salário médio de desenvolvedor até 2028. Na Índia, custo de tokens já equivale ao salário de engenheiro com 4-6 anos. 63% das organizações implementando controles de spend. A Uber impôs teto de US$ 1.500/mês por engenheiro. A Microsoft está cancelando licenças Claude Code até 30 de junho. Segundo a Goldman Sachs, spend anual em infra de IA pode subir de US$ 765 bilhões (2026) para US$ 1,6 trilhão (2031).

A disciplina de tokens não vai emergir por escolha do desenvolvedor sozinha, segundo o Gartner. FinOps para IA coding é a próxima fronteira.

O que nós vemos na Tech86

Na Tech86, nós acompanhamos essa transição de perto. O padrão é sempre o mesmo: uma equipe adota copilots, o uso cresce organicamente, ninguém monitora o spend, e a fatura surpreende no fim do mês. Os multiplicadores de 26-60× não são exceção — são o que acontece quando desenvolvedores descobrem sessões autônomas sem guardrails de budget.

A solução não é cortar IA — é implementar FinOps para IA com a mesma disciplina que você já usa para cloud. Roteamento por tier de modelo, guardrails de budget por feature, e accountability por equipe. O flat-rate morreu, mas a produtividade que ele desbloqueou é real. O desafio agora é pagar pelo que você usa — e usar o que você paga.

Billing Medido por Token: Por Que o Preço Flat-Rate para IA Morreu

A migração em massa para billing medido

Os números reais

O Paradoxo de Jevons na prática

A resposta do mercado

O que nós vemos na Tech86

Perguntas Frequentes

O que é billing medido por token e por que substituiu o flat-rate?

Por que os custos de IA para código subiram tanto?

O que é o Paradoxo de Jevons aplicado à IA para código?

Como gerenciar o spend de tokens sem travar a produtividade?

Blog — Fale Conosco

Agendar Reunião

E-mail

WhatsApp

Endereço

Especialista Tech86

Nós valorizamos sua privacidade