Pular para o conteúdo principal
Fechar
IA

GLM-5.2 Z.AI: O Primeiro Modelo de Ponta de Pesos Abertos em Paridade com Claude e GPT

Gabriel Ferraresi· CEO | Tech8629 de junho de 20265 min
iaglmzaiopen-weightsfrontiermodelosinferencia

Nós rodamos o GLM-5.2 da Z.AI na nossa infra desde o release dos pesos em 16 de junho de 2026. A conclusão é direta: é o primeiro modelo de ponta de pesos abertos que sustenta produção em paridade com Claude e GPT, e cobra um décimo por token para fazer isso. O aberto alcançou o fechado — e cobrou 1/10 por token para provar.

A arquitetura: MoE 744B-A40B e janela de 1 milhão de tokens

A arquitetura é MoE 744B-A40B: 744 bilhões de parâmetros totais com aproximadamente 40 bilhões ativos por token. A janela de contexto subiu para 1 milhão de tokens — contra 200K no GLM-5.1 — com saída máxima de 131.072 tokens. É texto apenas; quem precisa de visão fica no GLM-5V-Turbo, que é um modelo separado.

O ganho real está no Deep Sparse Attention com IndexShare, que corta FLOPs em 2,9x no contexto longo, segundo a Z.AI. Para workloads de inference com contexto estendido, isso significa throughput significativamente maior no mesmo hardware. A combinação de MoE sparse com IndexShare é o que permite sustentar 1 milhão de tokens sem estourar o budget de GPU — e nós confirmamos isso na nossa infra: contextos de 500K tokens que custavam caríssimo em modelos fechados rodam dentro do budget no GLM-5.2.

Benchmarks: o que a Z.AI reporta vs. o que terceiros confirmam

Os números de código são sólidos — e nós batemos contra a nossa base real. Segundo a Z.AI, auto-relatado sem verificação independente: Terminal-Bench 2.1 em 81,0 (Opus 4.8 faz 85,0; Gemini 3.1 Pro, 74) e SWE-bench Pro em 62,1 (SOTA para pesos abertos). Esses são os números que a própria Z.AI divulga — não números verificados por terceiros.

Os três que vêm de terceiros são os que pesam. FrontierSWE 74,4, à frente de GPT-5.5 em 72,6. PostTrainBench 34,3 vs. 28,4 do GPT-5.5. SWE-Marathon 13,0, segundo apenas ao Opus no cenário global. Esses são independentes.

Segundo a Artificial Analysis, o Intelligence Index é 51 — o mais alto de qualquer pesos abertos —, GPQA-Diamond 89,5% (a Z.AI reporta 91,2%) e HLE 40,1% (a Z.AI reporta 40,5%). Pequena divergência, mesma direção: os números de terceiros confirmam a direção dos números auto-relatados, mesmo que não a magnitude exata.

O custo: 10x mais barato que GPT e Claude

O custo é onde fecha para nós. A API custa US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de saída — cerca de 10x mais barato que GPT e Claude. Para workloads de inference de alto volume, a economia compõe: no nosso uso, a fatura mensal caiu para uma fração do que pagávamos em APIs fechadas, sem perda perceptível de qualidade em tarefas de código.

Para quem não tem GPU em casa, a Z.AI oferece o Coding Plan: Lite a US$ 18/mês, Pro a US$ 72 e Max a US$ 160 (com 30% de desconto de introdução). O Coding Plan roda dentro de Claude Code, Cursor, Cline, OpenCode, Roo Code, Kilo Code e o ZCode, com multiplicador 3x no pico de 14h-18h de Pequim. É o caminho mais curto para testar no seu fluxo sem comprometer infraestrutura.

Deploy: três caminhos para produção

Aqui split. Quem tem rack pega os pesos em zai-org/GLM-5.2 no HuggingFace (BF16 e FP8), sobe em vLLM v0.23.0+ ou SGLang v0.5.13.post1+, e pronto. A licença MIT permite uso comercial, fine-tune, air-gap e 80+ quants em llama.cpp e Ollama. Quem não tem infra começa pelo Coding Plan ou pela API.

Para inference em produção na América Latina, o caminho prático é Microsoft Foundry brazilsouth ou AWS Bedrock sa-east-1. Não há operação direta da Z.AI na região — o acesso vem via parceiros de cloud. Nós recomendamos começar pela API para validar o workload, e migrar para hospedada localmente quando o volume justificar rack dedicado.

A Z.AI: spinoff de Tsinghua, IPO e Entity List

A Z.AI é spinoff de 2019 da Tsinghua. O IPO em 8 de janeiro de 2026 na HKEX (ticker 2513) levantou aproximadamente US$ 558 milhões. A empresa entrou na Entity List em 15 de janeiro de 2025; segundo a Z.AI, a inclusão "lacks factual basis" — afirmação da empresa, não verificação independente.

Carol Lin, Group VP e CEO da Zhipu International, ex-AWS, puxa a globalização. Para a América Latina, o acesso chega via Microsoft Foundry brazilsouth e AWS Bedrock sa-east-1; sem operação direta da Z.AI na região. O modelo de distribuição via parceiros de cloud é o que torna o GLM-5.2 viável para empresas que não querem amarrar vendor.

Conclusão: o aberto alcançou o fechado

Nós recomendamos o GLM-5.2 para qualquer engenheiro que precise de frontier sem amarrar custo. O aberto alcançou o fechado, e cobrou 1/10 por token para provar. Os benchmarks de terceiros confirmam o que a Z.AI reporta; a licença MIT remove o aprisionamento; e o custo por token torna viável o que era proibitivo em APIs fechadas.

Na Tech86, nós ajudamos empresas a fazer deploy de modelos de pesos abertos em infraestrutura soberana — do download dos pesos ao tuning de throughput em produção. Se o seu workload de inference precisa de frontier sem amarrar custo, o GLM-5.2 é o caminho mais curto.

Interessado nesta solução?

Conheça nossos serviços gerenciados e infraestrutura.

Servidores Cloud para Inferência de IA

Perguntas Frequentes

O GLM-5.2 é o modelo de ponta da Z.AI, spinoff de 2019 da Tsinghua, com pesos liberados em 16 de junho de 2026 sob licença MIT. A arquitetura é MoE 744B-A40B (744 bilhões totais, ~40 bilhões ativos por token), janela de 1 milhão de tokens e saída máxima de 131.072. Ele importa porque é o primeiro modelo de pesos abertos que sustenta produção em paridade com Claude e GPT, segundo os benchmarks de terceiros — e cobra um décimo por token para fazer isso.

Segundo a Z.AI, auto-relatado sem verificação independente: Terminal-Bench 2.1 em 81,0 (Opus 4.8 faz 85,0; Gemini 3.1 Pro, 74) e SWE-bench Pro em 62,1 (SOTA para pesos abertos). Os benchmarks de terceiros confirmam a direção: FrontierSWE 74,4 à frente de GPT-5.5 em 72,6, PostTrainBench 34,3 vs. 28,4 do GPT-5.5, e SWE-Marathon 13,0 segundo apenas ao Opus globalmente. Segundo a Artificial Analysis, Intelligence Index 51 (mais alto de qualquer pesos abertos), GPQA-Diamond 89,5% e HLE 40,1% — pequena divergência dos números auto-relatados, mesma direção.

A API custa US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de saída — cerca de 10x mais barato que GPT e Claude. Para quem não tem GPU, o Coding Plan oferece três tiers: Lite a US$ 18/mês, Pro a US$ 72 e Max a US$ 160 (com 30% de desconto de introdução). O Coding Plan roda dentro de Claude Code, Cursor, Cline, OpenCode, Roo Code, Kilo Code e ZCode, com multiplicador 3x no pico de 14h-18h de Pequim.

Sim. A licença MIT permite uso comercial, fine-tune, air-gap e 80+ quants em llama.cpp e Ollama. Não há aprisionamento de vendor — quem tem rack pode baixar os pesos em zai-org/GLM-5.2 no HuggingFace (BF16 e FP8), subir em vLLM v0.23.0+ ou SGLang v0.5.13.post1+, e rodar em infraestrutura soberana. A Z.AI entrou na Entity List em 15 de janeiro de 2025; segundo a empresa, a inclusão "lacks factual basis" — afirmação da Z.AI, não verificação independente.

Não há operação direta da Z.AI na América Latina. O acesso chega via Microsoft Foundry brazilsouth e AWS Bedrock sa-east-1. Carol Lin, Group VP e CEO da Zhipu International (ex-AWS), puxa a globalização. Para empresas que querem soberania total, o caminho é baixar os pesos do HuggingFace e rodar em hospedada localmente — a licença MIT permite. Para quem quer validar rápido, a API ou os parceiros de cloud são o caminho mais curto.

Blog — Fale Conosco

Tem alguma pergunta sobre nossos artigos ou serviços? Nossa equipe está pronta para ajudar.

Agendar Reunião

Reserve um horário.

Agendar Agora

E-mail

Envie uma mensagem.

[email protected]

WhatsApp

Conversa rápida.

Endereço

Avenida Paulista, 1636 - São Paulo - SP - 01310-200

Especialista Tech86

Online agora

Olá! Como podemos ajudar a escalar seu negócio hoje?

Tech86 Engineering

Nós valorizamos sua privacidade

Utilizamos cookies e tecnologias similares para otimizar a sua experiência, analisar o tráfego do site e personalizar conteúdo. Ao clicar "Aceitar Todos", você concorda com o uso de todos os cookies. Leia nossa Política de Privacidade.