73% dos projetos de IA estouram o orçamento. Alguns 2.4x do planejado. O budget médio enterprise saltou de US$ 1.2M para US$ 7M em dois anos — e a maioria dos CFOs não sabe quanto custa cada token. Na Tech86, vimos empresas queimando US$ 2.3M em custos que ninguém previu porque ninguém instrumentou. Sem cost-per-token, qualquer otimização é achismo.
O problema de visibilidade
A bill da Anthropic chega como linha única: US$ 100K/mês. Sem breakdown por cliente, feature ou workflow. Uma query de banking dispara 1 orchestrator, 3 retrievers, 4 tool calls e 7 model invocations. O custo fica enterrado 6 níveis abaixo. O Cost Explorer não enxerga.
O problema não é falta de ferramentas — é falta de granularidade. FinOps tradicional opera no nível da instância. FinOps para IA precisa operar no nível do token. Se você não sabe quanto custa cada token processado por endpoint, não sabe onde está queimando dinheiro. E 98% dos times de FinOps agora gerenciam spend de IA — era 31% em 2024. A demanda explodiu, o playbook ainda não existe.
80-90% do gasto é inferência — e a GPU está ociosa
O treinamento domina o hype. A inferência domina a conta. 80-90% do spend de IA é inferência, não training. E a GPU utilization média fica entre 15-30%. Metade do budget paga hardware ocioso.
O culpado principal: endpoint provisionado para pico. Você configura a infra para aguentar o horário comercial de segunda, e ela fatura hora cheia 24/7. De madrugada, tráfego zero, GPU cobrando. Utilização abaixo de 50% é dinheiro recuperável. É como alugar um caminhão para entregar uma carta e pagar diária integral.
Na Tech86, quando auditamos workloads de IA, o primeiro número que procuramos é GPU utilization por endpoint e por horário. Se está abaixo de 50%, já sabemos que há margem significativa de economia.
Cost-per-token: a métrica que separa controle de achismo
Cost-per-token é simples na teoria: despesas diárias de inferência divididas por tokens processados. Na prática, exige instrumentação no application layer. Você precisa rastrear tokens por endpoint, por modelo, por cliente, por feature. Sem isso, está voando cego.
Um exemplo concreto: Opus 4.6 custa 42x mais que MiniMax M2.5 para 0.6% de diferença no benchmark. Se você não tem cost-per-token por endpoint, não sabe qual modelo está consumindo quanto. Não sabe se o Opus está rodando para tasks commodity que o MiniMax resolveria. Não sabe se um cliente que representa 12% do revenue está consumindo 78% do spend de LLM. Essa assimetria é invisível sem a métrica certa.
Cost-per-token transforma otimização de palpite em decisão de dados. Com ela, você compara modelos no custo real por task, identifica endpoints superdimensionados e quantifica o impacto de cada mudança de arquitetura.
As alavancas que funcionam
Dynamic batching e caching são o ganho mais rápido. Ao agrupar requisições e cachear respostas frequentes, GPU utilization sobe de 30% para 70%. O custo cai proporcionalmente. Não é teoria — é o que acontece quando a GPU para de processar uma requisição por vez e começa a trabalhar em batch.
Model routing por complexidade é a segunda alavanca. Tasks commodity em modelo barato, reasoning em frontier. Economia de 5-10x. Já cobrimos isso em detalhe no nosso artigo sobre model selection — aqui o foco é que sem cost-per-token, você não sabe se o routing está funcionando.
Autoscaling com GPU metrics é a terceira. CPU-based autoscaling não funciona para GPU. Um endpoint pode ter CPU baixa mas GPU saturada. O correto é usar KEDA com NVIDIA GPU Operator para escalar baseado em utilização real de GPU. Scale to zero em períodos de baixa. Sem isso, o endpoint provisionado para pico continua faturando 24/7.
Spend caps e on-prem: quando cloud não é a resposta
Spend caps são o freio que faltava. Google Cloud lançou em 2026: pause automático ao atingir budget. Sem isso, um agentic loop descontrolado gera custos que parecem tráfego legítimo até chegar a fatura. Spend caps por endpoint e por projeto são governança básica — não luxo.
On-prem inference é a conta que poucos fazem. Para workloads com volume estável e alto, o break-even pode chegar em 3 meses, segundo dados do Signal 65 / Futurum Group. Cloud vence quando o volume é esporádico ou imprevisível — o autoscaling compensa o preço por hora. Mas se sua inferência roda 24/7 com carga previsível, on-prem pode ser significativamente mais barato. O cálculo deve incluir hardware, energia, cooling e equipe de operação.
Conclusão
FinOps para IA é prática paralela: instrumentação em nível de token, alocação no application layer, governança de model routing, budget enforcement na API call. Sem bill surpresa. Sem agentic runaway que parece tráfego normal. Sem GPU reservada que ninguém usa.
A pergunta para o CFO: quanto custa cada token do seu chatbot? Qual modelo roda para qual query? Qual cliente consome 78% do spend de LLM pagando 12% do revenue? Se a resposta é "não sei" para qualquer uma, você está queimando dinheiro.
Na Tech86, desenhamos FinOps para IA com cost-per-token, model routing e GPU utilization como métricas centrais. Se você não sabe quanto custa cada token, está na hora de descobrir.
