O FAQ da comunidade do GitHub Copilot tem 904 downvotes e 22 upvotes. Isso resume a transição que aconteceu entre março e junho de 2026: toda ferramenta de IA para código migrou para billing medido por token. O flat-rate morreu. E os números reais são mais dramáticos do que qualquer projeção.
A migração em massa para billing medido
Entre março e junho de 2026, seis ferramentas principais migraram de per-seat flat para billing medido por token:
- GitHub Copilot (1 de junho): trocou Premium Request Units por AI Credits. Quando os créditos acabam, o serviço para. Pro: US$ 10/mês com 15 créditos. Pro+: US$ 39 com 70. Max: US$ 100 com 200.
- Cursor (1 de junho): reestruturou Teams com pools duplos de uso. Standard US$ 40/seat, Premium US$ 120/seat com 5× uso.
- Windsurf (19 de março): substituiu créditos por cotas diárias/semanais. Pro US$ 15-20, Max US$ 200. Rebatizado como Devin Desktop em junho.
- Anthropic (15 de abril): enterprise migrou de per-seat flat para per-token com commitment obrigatório.
- Claude Code (15 de junho): billing split — sessões interativas ficam no subscription, uso programático (Agent SDK) vai para pool de créditos separado a taxas full de API.
- OpenAI Codex (2 de abril): de per-message para token-based.
Segundo o Gartner, o flat-rate era um loss leader que construiu adoção. Adoção travada, cobrança real começou.
Os números reais
Os multiplicadores de custo são vertiginosos. Segundo relatos compilados de Reddit, Business Insider e Gartner:
- Usuário Reddit: de US$ 29/mês para ~US$ 750 (~26×).
- Outro usuário Reddit: de US$ 50 para ~US$ 3.000 (~60×).
- Pro+ subscriber projetado em US$ 847/mês, segundo o Business Insider.
- Editor da Visual Studio Magazine: queimou 82% dos 1.500 créditos grátis no Dia 1.
- Uber: US$ 500-2.000 por engenheiro/mês (de ~US$ 150-250).
- Segundo o Gartner, contas saltando de US$ 20-100 para US$ 2.000-5.000 por desenvolvedor/mês, com casos extremos em US$ 20.000.
O caveat essencial: esses multiplicadores são de usuários agentic pesados. Code completions e Next Edit continuam grátis no Copilot. Quem usa chat pontual sente pouco. Quem roda sessões autônomas de horas sente tudo. A diferença entre chat casual e agentic autônomo é a diferença entre um café e um aluguel.
O Paradoxo de Jevons na prática
O mecanismo por trás da explosão de custos é o Paradoxo de Jevons. Preço por token caiu ~80% em 2025-2026. Gasto total com IA subiu. Por quê? A arquitetura agentic é um multiplicador de tokens: mais turnos por tarefa, mais tokens por turno. Uma tarefa pode consumir 1-3,5 milhões de tokens. Power users gastando US$ 1.800+/mês.
Segundo o CPO do GitHub Mario Rodriguez: uma pergunta rápida de chat e uma sessão autônoma de horas podem custar o mesmo ao usuário. O modelo atual de premium requests não é mais sustentável. Quando o custo marginal de uma sessão autônoma é 100× o custo de um chat, o flat-rate se torna um buraco no balanço.
A resposta do mercado
A Linux Foundation lançou a Tokenomics Foundation (3 de junho de 2026) no FinOps X, expandindo a spec FOCUS para spend baseado em tokens. Segundo o Gartner, custos de IA para código vão ultrapassar o salário médio de desenvolvedor até 2028. Na Índia, custo de tokens já equivale ao salário de engenheiro com 4-6 anos. 63% das organizações implementando controles de spend. A Uber impôs teto de US$ 1.500/mês por engenheiro. A Microsoft está cancelando licenças Claude Code até 30 de junho. Segundo a Goldman Sachs, spend anual em infra de IA pode subir de US$ 765 bilhões (2026) para US$ 1,6 trilhão (2031).
A disciplina de tokens não vai emergir por escolha do desenvolvedor sozinha, segundo o Gartner. FinOps para IA coding é a próxima fronteira.
O que nós vemos na Tech86
Na Tech86, nós acompanhamos essa transição de perto. O padrão é sempre o mesmo: uma equipe adota copilots, o uso cresce organicamente, ninguém monitora o spend, e a fatura surpreende no fim do mês. Os multiplicadores de 26-60× não são exceção — são o que acontece quando desenvolvedores descobrem sessões autônomas sem guardrails de budget.
A solução não é cortar IA — é implementar FinOps para IA com a mesma disciplina que você já usa para cloud. Roteamento por tier de modelo, guardrails de budget por feature, e accountability por equipe. O flat-rate morreu, mas a produtividade que ele desbloqueou é real. O desafio agora é pagar pelo que você usa — e usar o que você paga.
