A Xiaomi — a mesma empresa que faz seu celular Redmi e seu purificador de ar — lançou um agente de codificação open-source que desafia o Claude Code. MiMo Code. MIT license. 10.8K estrelas em 16 dias. Fork do OpenCode. Nós analisamos os números, os caveats e o que isso realmente significa para engenharia de IA.
O que é o MiMo Code
Segundo a Xiaomi, o MiMo Code é um agente de codificação nativo de terminal com tool use completo: arquivos, bash, Git, LSP e MCP. Tem sistema de subagentes com execução paralela, memória persistente via SQLite FTS5 com checkpoint e auto-manutenção (dream/distill), Max Mode com best-of-N paralelo (N=5), e Compose Mode para desenvolvimento specs-driven com skills embutidos (planejamento, TDD, code review, debugging). Entrada por voz via TenVAD + MiMo ASR.
O modelo por trás é o MiMo-V2.5-Pro: 1.02T de parâmetros totais, 42B ativos por inferência, MoE com atenção híbrida (Sliding Window + Global), contexto de 1M tokens, 3 camadas MTP para speculative decoding (~3x speedup). Pré-treinado em 27 trilhões de tokens. FP8 nativo.
Bônus: o MiMo-7B-RL (7.8B denso) empata com o1-mini em benchmarks de math/code. Um modelo 7B igualando um modelo 20x maior — segundo a Xiaomi (auto-relatado, sem verificação independente).
Os benchmarks — e por que você deve ler com cautela
Segundo a Xiaomi (auto-relatado, sem verificação independente):
- SWE-bench Verified: 82% vs 79% do Claude Code (+3)
- SWE-bench Pro: 62% vs 55% (+7)
- Terminal Bench 2: 73% vs 69% (+4)
- Teste duplo-cego com 576 devs: >65% de win rate em tarefas com 200+ passos. Abaixo de 200 passos: ~50/50.
Os números são impressionantes. Mas todos são auto-relatados pela Xiaomi com zero verificação independente. Repetimos isso porque é fundamental: não existe auditoria de terceiros, não existe reprodutibilidade publicada, não existe peer review. É o equivalente a uma empresa divulgando seu próprio NPS — pode ser verdade, mas você não sabe se é.
E a comparação é só vs Claude Code (Sonnet 4.6). O Codex CLI + GPT-5.5 faz 82.2% no Terminal-Bench 2.0 — 9 pontos acima do MiMo Code. Quando o campo de comparação se amplia, a narrativa muda.
Harness > modelo — a inovação real
A inovação real do MiMo Code não é o modelo. É o harness — a arquitetura de orquestração ao redor do modelo. Segundo a Xiaomi (auto-relatado, sem verificação independente), mesmo usando o mesmo modelo MiMo-V2.5-Pro, o harness do MiMo Code pontua ~5 pontos acima do harness do Claude Code no SWE-bench Pro.
A diferença está na arquitetura de memória: checkpoint-writer salva o contexto em intervalos regulares, context rebuild reconstrói o contexto quando o limite de tokens se aproxima, e dream/distill comprime e consolida memórias entre sessões. Isso dá vantagem em tarefas longas — exatamente onde o teste duplo-cego mostrou >65% de win rate.
É a mesma lição do SantanderAI: arquitetura importa mais que capacidade bruta do modelo. O modelo é commodity (comum); o harness é a diferenciação. Quando a SantanderAI open-sourceou sua stack de IA, o sinal era que a camada de infraestrutura está se tornando comum. O MiMo Code reforça isso: se o mesmo modelo pontua diferente dependendo do harness, o valor não está no modelo — está na orquestração.
Os caveats que importam
Quatro caveats que não aparecem no README:
Benchmarks auto-relatados: zero verificação independente. A Xiaomi pode ter selecionado tarefas favoráveis, calibrado hiperparâmetros especificamente para os benchmarks, ou simplesmente reportado os melhores runs. Sem reprodutibilidade, os números são indicativos, não conclusivos.
Comparação limitada: só vs Claude Code. O Codex CLI + GPT-5.5 pontua 82.2% no Terminal-Bench 2.0 — 9 pontos acima. Se a comparação fosse vs Codex, a narrativa seria diferente.
MiMo Auto e lei chinesa: o MiMo Auto é gratuito por tempo limitado e roteia código pelos servidores da Xiaomi. A Xiaomi é uma empresa chinesa sujeita à lei chinesa — isso inclui obrigações de cooperação com autoridades governamentais. Para código proprietário, dados de clientes e segredos comerciais, isso é um risco real. O deploy local é a alternativa, mas requer ~8x H200 GPUs (~600GB+ de VRAM em FP8).
V0.1.0: é o primeiro release público. Software V0.1.0 tem bugs, APIs instáveis e documentação incompleta por definição. Não é produção-ready sem validação extensiva.
O padrão: SantanderAI → Xiaomi → quem vem aí?
O padrão fica claro: open-source de fontes inesperadas está redefinindo infraestrutura de IA. Primeiro o Santander — um banco europeu open-sourceando sua stack de governança de IA. Agora a Xiaomi — uma fabricante chinesa de celulares lançando um agente de codificação que desafia o líder do mercado.
O que esses dois têm em comum? Não são empresas de IA. São empresas que dependem de IA e decidiram que a camada de infraestrutura não é diferencial competitivo. O Santander abriu guardrails e bridges porque todo banco precisa deles. A Xiaomi abriu um agente de código porque o modelo é commodity (comum) — o harness é que importa.
Na Tech86, nós vemos esse padrão se acelerando. Empresas de setores não-IA vão open-sourcear cada vez mais infraestrutura de IA. O próximo pode ser uma montadora, uma varejista ou uma empresa de logística. Quando a infraestrutura é open-source, a diferenciação migra para a aplicação — e é aí que ajudamos empresas a competir: adotando a camada open-source e diferenciando na integração, calibração e operação.
