Pular para o conteúdo principal
Fechar
Infraestrutura

Infraestrutura que IA Precisa: Co-design é o Novo Paradigma

Gabriel Ferraresi· CEO | Tech8622 de maio de 20266 min
infraestruturaianvidiadata centerco-design

O gargalo de IA não é mais o silício. É a energia, a fibra, o data center e a orquestração de tudo isso junto. Quando a NVIDIA coloca US$ 40 bilhões em equity stakes e lança um supercomputador de 7 chips projetados como um sistema só, a mensagem é clara: o data center é a unidade de compute. Não o chip. Não o servidor. O rack inteiro.

O que US$ 40 bilhões em infraestrutura revelam

Em 2026, a NVIDIA investiu US$ 40 bilhões em equity stakes. Quase nada disso em chips. Os deals cobrem cada camada da stack: CoreWeave e Nebius (neoclouds de GPU, US$ 2Bi cada), Marvell e Lumentum (silicon photonics e componentes ópticos, US$ 2Bi cada), Coherent (transceivers ópticos de alta velocidade, US$ 2Bi), Corning (fibra óptica, 3 fábricas novas nos EUA, US$ 3,2Bi), IREN (5 gigawatts de infraestrutura DSX, US$ 2,1Bi).

Cada investimento cobre uma dependência real. Um AI factory com 100.000 GPUs gera tráfego de rede interno que excede os limites de cobre — sem a fibra da Corning, os racks não conversam entre si. Sem energia em escala de gigawatts, não há onde colocar os racks — a IREN controla terrenos e contratos de energia em regiões renováveis. Sem orquestração, GPUs são hardware ocioso — a Mirantis, comprada pela IREN por US$ 625 milhões, traz Kubernetes e plataforma de cloud para que clientes consumam o compute.

A NVIDIA não está vendendo chips. Está orquestrando um ecossistema onde cada camada depende dela. Jensen Huang chamou de "a maior construção de infraestrutura da história humana". TrendForce revisou o capex de IA para US$ 830 bilhões em 2026. Não é hipérbole — é estratégia de controle vertical.

Vera Rubin: 7 chips, 1 sistema, 0 margem para desagregação

Se os investimentos mostram a estratégia, a Vera Rubin mostra a tática. São 7 chips projetados juntos para um objetivo: rodar agentes de IA em escala.

O problema é que inferência de chatbot e inferência de agente são mundos diferentes. Chatbot: pergunta, resposta, fim. Agente: múltiplas ferramentas, sub-agentes, memória acumulada, decisões não determinísticas. A Anthropic estimou que sistemas multi-agente consomem até 15x mais tokens que inferência padrão. Um agente principal acumula ~85K tokens de contexto nos primeiros 40 turnos e processa ~3,5 milhões de input tokens antes da compactação. Prefill explode. KV cache cresce sem parar. Latência composta destrói a experiência.

A Vera Rubin responde com co-design extremo: Rubin GPU (50 petaFLOPS NVFP4, 3,6 TB/s por GPU, 10x redução de custo por token vs Blackwell), Vera CPU (88 cores Olympus, 1,2 TB/s LPDDR5X, KV cache offload nativo), Groq 3 LPX (256 LPUs por rack, 128 GB SRAM on-chip, 35x mais throughput por megawatt), NVLink 6 Switch (260 TB/s all-to-all entre 72 GPUs), ConnectX-9 SuperNIC (serving de baixa latência para coordenação entre agentes), BlueField-4 DPU (persiste e compartilha KV cache entre nodes, até 5x mais tokens/s), Spectrum-X Ethernet (fabric unificado para workloads agentic).

O resultado: 400+ tokens por segundo por usuário em modelos MoE de trilhões de parâmetros com contexto de 400K. Agentes com modelos grandes e contexto longo são viáveis como produtos. Não experimentos caros.

Por que co-design não é opcional

A Vera Rubin é intencionalmente difícil de desagregar. Igualar a GPU em FLOPS não iguala a fábrica de IA integrada em custo ou performance. É a mesma lógica dos investimentos: quem controla a stack inteira dita as condições de quem precisa dela.

Na prática, isso significa que comprar GPUs de um lado, rede de outro e storage de terceiros não gera o mesmo resultado. O gargalo não está em nenhum componente isolado — está nas interfaces entre eles. Um cluster com 72 GPUs conectadas por NVLink 6 a 260 TB/s tem perfil de latência completamente diferente de 72 GPUs conectadas por Ethernet padrão. O KV cache offload nativo da Vera CPU para a BlueField-4 DPU elimina round-trips que, em arquiteturas desagregadas, adicionam dezenas de milissegundos por turno.

Aprendemos isso na Tech86 na prática. Já montamos clusters onde o compute era suficiente, mas a rede entre racks virou o gargalo. Já vimos workloads agentic com latência aceitável em laboratório e inaceitável em produção porque o storage de KV cache não acompanhava o volume de tokens. Co-design não é conceito acadêmico — é a diferença entre um sistema que funciona e um que teoricamente deveria funcionar.

A armadilha do component shopping

O erro mais comum que vemos: empresas compram GPUs de última geração e conectam tudo com infraestrutura de geração anterior. Funciona para inferência de chat. Falha para agentes.

Um agente que chama 5 ferramentas em sequência, cria 2 sub-agentes e mantém contexto de 40 turnos não é um chatbot mais complexo — é um workload fundamentalmente diferente. O prefill explode porque cada turno acumula contexto. O KV cache cresce porque o modelo precisa reter estado. A latência compõe porque cada chamada de ferramenta é uma inferência dependente da anterior. Se qualquer camada — rede, storage, CPU — não acompanha, o sistema inteiro degrada.

A Micron acabou de anunciar módulos DDR5 de 256GB com 1-gamma DRAM a 9.200 MT/s — 40% mais rápido, 40% menos consumo. Lambda fechou facility de US$ 1 bilhão para AI factories. O mercado está se movendo para sistemas integrados. Quem continua comprando componentes isolados vai pagar mais por menos.

O que muda na hora de planejar infraestrutura

Se o data center é a unidade de compute, o planejamento de infraestrutura precisa ser sistêmico desde o início. Não adianta provisionar GPU e depois descobrir que a rede não suporta o tráfego. Não adianta dimensionar energia para o pico de treinamento e esquecer que inferência agentic tem padrões de consumo diferentes — spikes curtos e frequentes em vez de carga sustained.

O primeiro passo é mapear o perfil do workload. Inferência de chat, agentes multi-turno e treinamento têm requisitos radicalmente diferentes de compute, memória e rede. O segundo passo é dimensionar o contexto, não só o compute — workloads agentic vivem de KV cache e bandwidth de memória. O terceiro é integrar rede e storage desde o desenho, não como afterthought. Fibra óptica e NVLink não são upgrades — são o backbone. O quarto é provisionar energia com margem. E o quinto é validar orquestração com carga real antes de escalar.

A infraestrutura que IA precisa é a que pensa em sistema

A NVIDIA está gastando US$ 40 bilhões para provar que IA não roda em chips isolados. Roa em sistemas. A Vera Rubin é a materialização técnica dessa tese: 7 chips que só funcionam juntos. O mercado de IA está se consolidando em torno de quem controla a stack inteira — e quem não pensa em sistema vai ficar dependendo de quem pensa.

Na Tech86, desenhamos infraestrutura de IA com co-design de compute, rede e orquestração. Nossos Cloud Servers são projetados para que cada camada funcione como parte de um sistema, não como peça solta. Se você está planejando workloads de IA, o momento de pensar em sistema é antes da primeira GPU — não depois.

Interessado nesta solução?

Conheça nossos serviços gerenciados e infraestrutura.

Conheça Cloud Servers

Perguntas Frequentes

É arquitetar GPU, CPU, rede, storage, energia e cooling como um sistema integrado, não como componentes comprados separadamente. Desmontar o sistema perde a vantagem — igualar FLOPS não iguala performance real.

Porque um chip isolado não roda workloads de IA. Precisa de fibra para comunicação entre racks, energia em escala de GW, storage para KV cache e orquestração para consumir o compute. A Vera Rubin da NVIDIA tem 7 chips projetados juntos — tirar qualquer um quebra o sistema.

Sim. A Anthropic estimou que sistemas multi-agente consomem até 15x mais tokens que inferência padrão. Um agente principal processa ~3,5 milhões de input tokens antes da compactação. Infraestrutura de chat não serve para agentes.

Em escala de cluster, sim. Um AI factory com 100K GPUs gera tráfego de rede interno que excede os limites do cobre. A NVIDIA investiu US$ 3,2Bi na Corning e US$ 2Bi na Marvell para garantir conectividade óptica — não é luxo, é requisito.

Comece com co-design conceitual: mapeie compute, rede, storage e orquestração como um sistema antes de comprar qualquer coisa. Na Tech86, ajudamos empresas a projetar essa arquitetura com Cloud Servers que já integram essas camadas.

Blog — Fale Conosco

Tem alguma pergunta sobre nossos artigos ou serviços? Nossa equipe está pronta para ajudar.

Agendar Reunião

Reserve um horário.

Agendar Agora

E-mail

Envie uma mensagem.

[email protected]

WhatsApp

Conversa rápida.

Endereço

Avenida Paulista, 1636 - São Paulo - SP - 01310-200

Especialista Tech86

Online agora

Olá! Como podemos ajudar a escalar seu negócio hoje?

Tech86 Engineering

Nós valorizamos sua privacidade

Utilizamos cookies e tecnologias similares para otimizar a sua experiência, analisar o tráfego do site e personalizar conteúdo. Ao clicar "Aceitar Todos", você concorda com o uso de todos os cookies. Leia nossa Política de Privacidade.