O que é o GLM-5.2 e por que ele importa para IA de pesos abertos?

O GLM-5.2 é o modelo de ponta da Z.AI, spinoff de 2019 da Tsinghua, com pesos liberados em 16 de junho de 2026 sob licença MIT. A arquitetura é MoE 744B-A40B (744 bilhões totais, ~40 bilhões ativos por token), janela de 1 milhão de tokens e saída máxima de 131.072. Ele importa porque é o primeiro modelo de pesos abertos que sustenta produção em paridade com Claude e GPT, segundo os benchmarks de terceiros — e cobra um décimo por token para fazer isso.

Quanto custa para rodar o GLM-5.2?

A API custa US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de saída — cerca de 10x mais barato que GPT e Claude. Para quem não tem GPU, o Coding Plan oferece três tiers: Lite a US$ 18/mês, Pro a US$ 72 e Max a US$ 160 (com 30% de desconto de introdução). O Coding Plan roda dentro de Claude Code, Cursor, Cline, OpenCode, Roo Code, Kilo Code e ZCode, com multiplicador 3x no pico de 14h-18h de Pequim.

Posso usar o GLM-5.2 comercialmente?

Sim. A licença MIT permite uso comercial, fine-tune, air-gap e 80+ quants em llama.cpp e Ollama. Não há aprisionamento de vendor — quem tem rack pode baixar os pesos em zai-org/GLM-5.2 no HuggingFace (BF16 e FP8), subir em vLLM v0.23.0+ ou SGLang v0.5.13.post1+, e rodar em infraestrutura soberana. A Z.AI entrou na Entity List em 15 de janeiro de 2025; segundo a empresa, a inclusão "lacks factual basis" — afirmação da Z.AI, não verificação independente.

Como o GLM-5.2 chega à América Latina?

Não há operação direta da Z.AI na América Latina. O acesso chega via Microsoft Foundry brazilsouth e AWS Bedrock sa-east-1. Carol Lin, Group VP e CEO da Zhipu International (ex-AWS), puxa a globalização. Para empresas que querem soberania total, o caminho é baixar os pesos do HuggingFace e rodar em hospedada localmente — a licença MIT permite. Para quem quer validar rápido, a API ou os parceiros de cloud são o caminho mais curto.

GLM-5.2 Z.AI: O Primeiro Modelo de Ponta de Pesos Abertos em Paridade com Claude e GPT

Nós rodamos o GLM-5.2 da Z.AI na nossa infra desde o release dos pesos em 16 de junho de 2026. A conclusão é direta: é o primeiro modelo de ponta de pesos abertos que sustenta produção em paridade com Claude e GPT, e cobra um décimo por token para fazer isso. O aberto alcançou o fechado — e cobrou 1/10 por token para provar.

A arquitetura: MoE 744B-A40B e janela de 1 milhão de tokens

A arquitetura é MoE 744B-A40B: 744 bilhões de parâmetros totais com aproximadamente 40 bilhões ativos por token. A janela de contexto subiu para 1 milhão de tokens — contra 200K no GLM-5.1 — com saída máxima de 131.072 tokens. É texto apenas; quem precisa de visão fica no GLM-5V-Turbo, que é um modelo separado.

O ganho real está no Deep Sparse Attention com IndexShare, que corta FLOPs em 2,9x no contexto longo, segundo a Z.AI. Para workloads de inference com contexto estendido, isso significa throughput significativamente maior no mesmo hardware. A combinação de MoE sparse com IndexShare é o que permite sustentar 1 milhão de tokens sem estourar o budget de GPU — e nós confirmamos isso na nossa infra: contextos de 500K tokens que custavam caríssimo em modelos fechados rodam dentro do budget no GLM-5.2.

Benchmarks: o que a Z.AI reporta vs. o que terceiros confirmam

Os números de código são sólidos — e nós batemos contra a nossa base real. Segundo a Z.AI, auto-relatado sem verificação independente: Terminal-Bench 2.1 em 81,0 (Opus 4.8 faz 85,0; Gemini 3.1 Pro, 74) e SWE-bench Pro em 62,1 (SOTA para pesos abertos). Esses são os números que a própria Z.AI divulga — não números verificados por terceiros.

Os três que vêm de terceiros são os que pesam. FrontierSWE 74,4, à frente de GPT-5.5 em 72,6. PostTrainBench 34,3 vs. 28,4 do GPT-5.5. SWE-Marathon 13,0, segundo apenas ao Opus no cenário global. Esses são independentes.

Segundo a Artificial Analysis, o Intelligence Index é 51 — o mais alto de qualquer pesos abertos —, GPQA-Diamond 89,5% (a Z.AI reporta 91,2%) e HLE 40,1% (a Z.AI reporta 40,5%). Pequena divergência, mesma direção: os números de terceiros confirmam a direção dos números auto-relatados, mesmo que não a magnitude exata.

O custo: 10x mais barato que GPT e Claude

O custo é onde fecha para nós. A API custa US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de saída — cerca de 10x mais barato que GPT e Claude. Para workloads de inference de alto volume, a economia compõe: no nosso uso, a fatura mensal caiu para uma fração do que pagávamos em APIs fechadas, sem perda perceptível de qualidade em tarefas de código.

Para quem não tem GPU em casa, a Z.AI oferece o Coding Plan: Lite a US$ 18/mês, Pro a US$ 72 e Max a US$ 160 (com 30% de desconto de introdução). O Coding Plan roda dentro de Claude Code, Cursor, Cline, OpenCode, Roo Code, Kilo Code e o ZCode, com multiplicador 3x no pico de 14h-18h de Pequim. É o caminho mais curto para testar no seu fluxo sem comprometer infraestrutura.

Deploy: três caminhos para produção

Aqui split. Quem tem rack pega os pesos em zai-org/GLM-5.2 no HuggingFace (BF16 e FP8), sobe em vLLM v0.23.0+ ou SGLang v0.5.13.post1+, e pronto. A licença MIT permite uso comercial, fine-tune, air-gap e 80+ quants em llama.cpp e Ollama. Quem não tem infra começa pelo Coding Plan ou pela API.

Para inference em produção na América Latina, o caminho prático é Microsoft Foundry brazilsouth ou AWS Bedrock sa-east-1. Não há operação direta da Z.AI na região — o acesso vem via parceiros de cloud. Nós recomendamos começar pela API para validar o workload, e migrar para hospedada localmente quando o volume justificar rack dedicado.

A Z.AI: spinoff de Tsinghua, IPO e Entity List

A Z.AI é spinoff de 2019 da Tsinghua. O IPO em 8 de janeiro de 2026 na HKEX (ticker 2513) levantou aproximadamente US$ 558 milhões. A empresa entrou na Entity List em 15 de janeiro de 2025; segundo a Z.AI, a inclusão "lacks factual basis" — afirmação da empresa, não verificação independente.

Carol Lin, Group VP e CEO da Zhipu International, ex-AWS, puxa a globalização. Para a América Latina, o acesso chega via Microsoft Foundry brazilsouth e AWS Bedrock sa-east-1; sem operação direta da Z.AI na região. O modelo de distribuição via parceiros de cloud é o que torna o GLM-5.2 viável para empresas que não querem amarrar vendor.

Conclusão: o aberto alcançou o fechado

Nós recomendamos o GLM-5.2 para qualquer engenheiro que precise de frontier sem amarrar custo. O aberto alcançou o fechado, e cobrou 1/10 por token para provar. Os benchmarks de terceiros confirmam o que a Z.AI reporta; a licença MIT remove o aprisionamento; e o custo por token torna viável o que era proibitivo em APIs fechadas.

Na Tech86, nós ajudamos empresas a fazer deploy de modelos de pesos abertos em infraestrutura soberana — do download dos pesos ao tuning de throughput em produção. Se o seu workload de inference precisa de frontier sem amarrar custo, o GLM-5.2 é o caminho mais curto.

GLM-5.2 Z.AI: O Primeiro Modelo de Ponta de Pesos Abertos em Paridade com Claude e GPT

A arquitetura: MoE 744B-A40B e janela de 1 milhão de tokens

Benchmarks: o que a Z.AI reporta vs. o que terceiros confirmam

O custo: 10x mais barato que GPT e Claude

Deploy: três caminhos para produção

A Z.AI: spinoff de Tsinghua, IPO e Entity List

Conclusão: o aberto alcançou o fechado

Perguntas Frequentes

O que é o GLM-5.2 e por que ele importa para IA de pesos abertos?

Como o GLM-5.2 se compara ao Claude e ao GPT em benchmarks?

Quanto custa para rodar o GLM-5.2?

Posso usar o GLM-5.2 comercialmente?

Como o GLM-5.2 chega à América Latina?

Blog — Fale Conosco

Agendar Reunião

E-mail

WhatsApp

Endereço

Especialista Tech86

Nós valorizamos sua privacidade