Nós rodamos o GLM-5.2 da Z.AI na nossa infra desde o release dos pesos em 16 de junho de 2026. A conclusão é direta: é o primeiro modelo de ponta de pesos abertos que sustenta produção em paridade com Claude e GPT, e cobra um décimo por token para fazer isso. O aberto alcançou o fechado — e cobrou 1/10 por token para provar.
A arquitetura: MoE 744B-A40B e janela de 1 milhão de tokens
A arquitetura é MoE 744B-A40B: 744 bilhões de parâmetros totais com aproximadamente 40 bilhões ativos por token. A janela de contexto subiu para 1 milhão de tokens — contra 200K no GLM-5.1 — com saída máxima de 131.072 tokens. É texto apenas; quem precisa de visão fica no GLM-5V-Turbo, que é um modelo separado.
O ganho real está no Deep Sparse Attention com IndexShare, que corta FLOPs em 2,9x no contexto longo, segundo a Z.AI. Para workloads de inference com contexto estendido, isso significa throughput significativamente maior no mesmo hardware. A combinação de MoE sparse com IndexShare é o que permite sustentar 1 milhão de tokens sem estourar o budget de GPU — e nós confirmamos isso na nossa infra: contextos de 500K tokens que custavam caríssimo em modelos fechados rodam dentro do budget no GLM-5.2.
Benchmarks: o que a Z.AI reporta vs. o que terceiros confirmam
Os números de código são sólidos — e nós batemos contra a nossa base real. Segundo a Z.AI, auto-relatado sem verificação independente: Terminal-Bench 2.1 em 81,0 (Opus 4.8 faz 85,0; Gemini 3.1 Pro, 74) e SWE-bench Pro em 62,1 (SOTA para pesos abertos). Esses são os números que a própria Z.AI divulga — não números verificados por terceiros.
Os três que vêm de terceiros são os que pesam. FrontierSWE 74,4, à frente de GPT-5.5 em 72,6. PostTrainBench 34,3 vs. 28,4 do GPT-5.5. SWE-Marathon 13,0, segundo apenas ao Opus no cenário global. Esses são independentes.
Segundo a Artificial Analysis, o Intelligence Index é 51 — o mais alto de qualquer pesos abertos —, GPQA-Diamond 89,5% (a Z.AI reporta 91,2%) e HLE 40,1% (a Z.AI reporta 40,5%). Pequena divergência, mesma direção: os números de terceiros confirmam a direção dos números auto-relatados, mesmo que não a magnitude exata.
O custo: 10x mais barato que GPT e Claude
O custo é onde fecha para nós. A API custa US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de saída — cerca de 10x mais barato que GPT e Claude. Para workloads de inference de alto volume, a economia compõe: no nosso uso, a fatura mensal caiu para uma fração do que pagávamos em APIs fechadas, sem perda perceptível de qualidade em tarefas de código.
Para quem não tem GPU em casa, a Z.AI oferece o Coding Plan: Lite a US$ 18/mês, Pro a US$ 72 e Max a US$ 160 (com 30% de desconto de introdução). O Coding Plan roda dentro de Claude Code, Cursor, Cline, OpenCode, Roo Code, Kilo Code e o ZCode, com multiplicador 3x no pico de 14h-18h de Pequim. É o caminho mais curto para testar no seu fluxo sem comprometer infraestrutura.
Deploy: três caminhos para produção
Aqui split. Quem tem rack pega os pesos em zai-org/GLM-5.2 no HuggingFace (BF16 e FP8), sobe em vLLM v0.23.0+ ou SGLang v0.5.13.post1+, e pronto. A licença MIT permite uso comercial, fine-tune, air-gap e 80+ quants em llama.cpp e Ollama. Quem não tem infra começa pelo Coding Plan ou pela API.
Para inference em produção na América Latina, o caminho prático é Microsoft Foundry brazilsouth ou AWS Bedrock sa-east-1. Não há operação direta da Z.AI na região — o acesso vem via parceiros de cloud. Nós recomendamos começar pela API para validar o workload, e migrar para hospedada localmente quando o volume justificar rack dedicado.
A Z.AI: spinoff de Tsinghua, IPO e Entity List
A Z.AI é spinoff de 2019 da Tsinghua. O IPO em 8 de janeiro de 2026 na HKEX (ticker 2513) levantou aproximadamente US$ 558 milhões. A empresa entrou na Entity List em 15 de janeiro de 2025; segundo a Z.AI, a inclusão "lacks factual basis" — afirmação da empresa, não verificação independente.
Carol Lin, Group VP e CEO da Zhipu International, ex-AWS, puxa a globalização. Para a América Latina, o acesso chega via Microsoft Foundry brazilsouth e AWS Bedrock sa-east-1; sem operação direta da Z.AI na região. O modelo de distribuição via parceiros de cloud é o que torna o GLM-5.2 viável para empresas que não querem amarrar vendor.
Conclusão: o aberto alcançou o fechado
Nós recomendamos o GLM-5.2 para qualquer engenheiro que precise de frontier sem amarrar custo. O aberto alcançou o fechado, e cobrou 1/10 por token para provar. Os benchmarks de terceiros confirmam o que a Z.AI reporta; a licença MIT remove o aprisionamento; e o custo por token torna viável o que era proibitivo em APIs fechadas.
Na Tech86, nós ajudamos empresas a fazer deploy de modelos de pesos abertos em infraestrutura soberana — do download dos pesos ao tuning de throughput em produção. Se o seu workload de inference precisa de frontier sem amarrar custo, o GLM-5.2 é o caminho mais curto.