O gargalo de IA não é mais o silício. É a energia, a fibra, o data center e a orquestração de tudo isso junto. Quando a NVIDIA coloca US$ 40 bilhões em equity stakes e lança um supercomputador de 7 chips projetados como um sistema só, a mensagem é clara: o data center é a unidade de compute. Não o chip. Não o servidor. O rack inteiro.
O que US$ 40 bilhões em infraestrutura revelam
Em 2026, a NVIDIA investiu US$ 40 bilhões em equity stakes. Quase nada disso em chips. Os deals cobrem cada camada da stack: CoreWeave e Nebius (neoclouds de GPU, US$ 2Bi cada), Marvell e Lumentum (silicon photonics e componentes ópticos, US$ 2Bi cada), Coherent (transceivers ópticos de alta velocidade, US$ 2Bi), Corning (fibra óptica, 3 fábricas novas nos EUA, US$ 3,2Bi), IREN (5 gigawatts de infraestrutura DSX, US$ 2,1Bi).
Cada investimento cobre uma dependência real. Um AI factory com 100.000 GPUs gera tráfego de rede interno que excede os limites de cobre — sem a fibra da Corning, os racks não conversam entre si. Sem energia em escala de gigawatts, não há onde colocar os racks — a IREN controla terrenos e contratos de energia em regiões renováveis. Sem orquestração, GPUs são hardware ocioso — a Mirantis, comprada pela IREN por US$ 625 milhões, traz Kubernetes e plataforma de cloud para que clientes consumam o compute.
A NVIDIA não está vendendo chips. Está orquestrando um ecossistema onde cada camada depende dela. Jensen Huang chamou de "a maior construção de infraestrutura da história humana". TrendForce revisou o capex de IA para US$ 830 bilhões em 2026. Não é hipérbole — é estratégia de controle vertical.
Vera Rubin: 7 chips, 1 sistema, 0 margem para desagregação
Se os investimentos mostram a estratégia, a Vera Rubin mostra a tática. São 7 chips projetados juntos para um objetivo: rodar agentes de IA em escala.
O problema é que inferência de chatbot e inferência de agente são mundos diferentes. Chatbot: pergunta, resposta, fim. Agente: múltiplas ferramentas, sub-agentes, memória acumulada, decisões não determinísticas. A Anthropic estimou que sistemas multi-agente consomem até 15x mais tokens que inferência padrão. Um agente principal acumula ~85K tokens de contexto nos primeiros 40 turnos e processa ~3,5 milhões de input tokens antes da compactação. Prefill explode. KV cache cresce sem parar. Latência composta destrói a experiência.
A Vera Rubin responde com co-design extremo: Rubin GPU (50 petaFLOPS NVFP4, 3,6 TB/s por GPU, 10x redução de custo por token vs Blackwell), Vera CPU (88 cores Olympus, 1,2 TB/s LPDDR5X, KV cache offload nativo), Groq 3 LPX (256 LPUs por rack, 128 GB SRAM on-chip, 35x mais throughput por megawatt), NVLink 6 Switch (260 TB/s all-to-all entre 72 GPUs), ConnectX-9 SuperNIC (serving de baixa latência para coordenação entre agentes), BlueField-4 DPU (persiste e compartilha KV cache entre nodes, até 5x mais tokens/s), Spectrum-X Ethernet (fabric unificado para workloads agentic).
O resultado: 400+ tokens por segundo por usuário em modelos MoE de trilhões de parâmetros com contexto de 400K. Agentes com modelos grandes e contexto longo são viáveis como produtos. Não experimentos caros.
Por que co-design não é opcional
A Vera Rubin é intencionalmente difícil de desagregar. Igualar a GPU em FLOPS não iguala a fábrica de IA integrada em custo ou performance. É a mesma lógica dos investimentos: quem controla a stack inteira dita as condições de quem precisa dela.
Na prática, isso significa que comprar GPUs de um lado, rede de outro e storage de terceiros não gera o mesmo resultado. O gargalo não está em nenhum componente isolado — está nas interfaces entre eles. Um cluster com 72 GPUs conectadas por NVLink 6 a 260 TB/s tem perfil de latência completamente diferente de 72 GPUs conectadas por Ethernet padrão. O KV cache offload nativo da Vera CPU para a BlueField-4 DPU elimina round-trips que, em arquiteturas desagregadas, adicionam dezenas de milissegundos por turno.
Aprendemos isso na Tech86 na prática. Já montamos clusters onde o compute era suficiente, mas a rede entre racks virou o gargalo. Já vimos workloads agentic com latência aceitável em laboratório e inaceitável em produção porque o storage de KV cache não acompanhava o volume de tokens. Co-design não é conceito acadêmico — é a diferença entre um sistema que funciona e um que teoricamente deveria funcionar.
A armadilha do component shopping
O erro mais comum que vemos: empresas compram GPUs de última geração e conectam tudo com infraestrutura de geração anterior. Funciona para inferência de chat. Falha para agentes.
Um agente que chama 5 ferramentas em sequência, cria 2 sub-agentes e mantém contexto de 40 turnos não é um chatbot mais complexo — é um workload fundamentalmente diferente. O prefill explode porque cada turno acumula contexto. O KV cache cresce porque o modelo precisa reter estado. A latência compõe porque cada chamada de ferramenta é uma inferência dependente da anterior. Se qualquer camada — rede, storage, CPU — não acompanha, o sistema inteiro degrada.
A Micron acabou de anunciar módulos DDR5 de 256GB com 1-gamma DRAM a 9.200 MT/s — 40% mais rápido, 40% menos consumo. Lambda fechou facility de US$ 1 bilhão para AI factories. O mercado está se movendo para sistemas integrados. Quem continua comprando componentes isolados vai pagar mais por menos.
O que muda na hora de planejar infraestrutura
Se o data center é a unidade de compute, o planejamento de infraestrutura precisa ser sistêmico desde o início. Não adianta provisionar GPU e depois descobrir que a rede não suporta o tráfego. Não adianta dimensionar energia para o pico de treinamento e esquecer que inferência agentic tem padrões de consumo diferentes — spikes curtos e frequentes em vez de carga sustained.
O primeiro passo é mapear o perfil do workload. Inferência de chat, agentes multi-turno e treinamento têm requisitos radicalmente diferentes de compute, memória e rede. O segundo passo é dimensionar o contexto, não só o compute — workloads agentic vivem de KV cache e bandwidth de memória. O terceiro é integrar rede e storage desde o desenho, não como afterthought. Fibra óptica e NVLink não são upgrades — são o backbone. O quarto é provisionar energia com margem. E o quinto é validar orquestração com carga real antes de escalar.
A infraestrutura que IA precisa é a que pensa em sistema
A NVIDIA está gastando US$ 40 bilhões para provar que IA não roda em chips isolados. Roa em sistemas. A Vera Rubin é a materialização técnica dessa tese: 7 chips que só funcionam juntos. O mercado de IA está se consolidando em torno de quem controla a stack inteira — e quem não pensa em sistema vai ficar dependendo de quem pensa.
Na Tech86, desenhamos infraestrutura de IA com co-design de compute, rede e orquestração. Nossos Cloud Servers são projetados para que cada camada funcione como parte de um sistema, não como peça solta. Se você está planejando workloads de IA, o momento de pensar em sistema é antes da primeira GPU — não depois.
