O conceito de N-day sempre pressupôs uma janela: o tempo entre a divulgação de um patch e a exploração em massa dava aos defensores dias ou semanas para reagir. Segundo a Anthropic, essa janela colapsou. O nome certo é N-hour. E os números que a Anthropic apresentou são concretos o suficiente para mudar como pensamos sobre defesa.
O que o Mythos Preview demonstrou
Segundo a Anthropic, o Mythos Preview construiu 8 exploits de execução de código a partir de 18 patches do Firefox. O primeiro PoC saiu em 12 minutos. O primeiro exploit funcional em menos de 1 hora. É importante notar: o teste usou jsshell, o shell JavaScript do Firefox, não o browser completo com sandbox. Isso significa que o resultado demonstra capacidade de desenvolvimento de exploit, não necessariamente exploração de browser em produção.
Depois veio o teste real: 21 vulnerabilidades de kernel do Windows — código fechado, sem fonte pública. Segundo a Anthropic, o Mythos Preview produziu PoCs para 18 delas. O primeiro PoC em 31 minutos. Todos os 18 em 6 horas. 8 cadeias completas de escalonamento de privilégio para SYSTEM. Cabe uma ressalva técnica: a decompilação Ghidra foi pré-computada offline, e os tempos divulgados são o melhor de 3 tentativas, não a média.
O custo, segundo a Anthropic: US$ 15,7 mil em créditos de API para as 8 cadeias completas. Aproximadamente US$ 2 mil por cadeia de privilégio. Os 18 PoCs custaram US$ 2,2 mil no total. O gargalo não é mais habilidade técnica — é orçamento de inferência e acesso a API.
A classificação de risco do vendor não prediz explorabilidade
Segundo a Anthropic, das 21 vulnerabilidades de kernel testadas, 14 foram classificadas pela Microsoft como "Exploitation Less Likely" ou "Exploitation Unlikely". O Mythos Preview produziu PoCs para 13 dessas 14. E construiu uma cadeia completa de privilégio para uma vulnerabilidade classificada como "Exploitation Unlikely".
Na Tech86, isso confirma o que vimos na prática: a classificação de risco do vendor é um indicador fraco de explorabilidade real. Vulnerabilidades rotuladas como "pouco prováveis" são exploráveis quando encadeadas. A IA não respeita labels — ela testa combinações até encontrar um caminho funcional.
A janela de patch vs. a velocidade do exploit
Segundo a Microsoft, o Windows Autopatch leva 7 dias para distribuir patches a 90% dos dispositivos inscritos. 11 dias para forçar reboot. O Mythos Preview termina todos os exploits antes de qualquer dispositivo inscrito receber a correção.
A matemática é implacável: 31 minutos para o primeiro PoC contra 7 dias para 90% de cobertura de patch. O ciclo de patch mensal — e até o Autopatch acelerado — é estruturalmente mais lento que a velocidade de desenvolvimento de exploit por IA. Não é uma questão de esforço. É uma questão de física do processo.
A consistência importa — e é o calcanhar de Aquiles
Segundo a Anthropic, em 50 tentativas para cada CVE, o Mythos Preview resolveu apenas 7 de 18 em todas as tentativas. Os tempos divulgados são o melhor de 3 tentativas, não a média. A IA acelera dramaticamente, mas não é determinística.
Essa nuance é crítica. Não estamos diante de um sistema que resolve toda vulnerabilidade toda vez. Estamos diante de um sistema que, com tentativas suficientes, resolve a maioria — e o custo por tentativa é baixo o suficiente para que tentar 50 vezes seja viável. A não-deterministicidade é um fator atenuante, mas não uma defesa. Quando o custo por cadeia é US$ 2 mil, tentar 50 vezes é uma questão de orçamento, não de capacidade.
O que muda para quem defende infraestrutura
Segundo a Anthropic, modelos públicos com salvaguardas desativadas também produzem exploits funcionais — menos, mas produzem. O Mythos Preview não está disponível publicamente, restrito a cerca de 50 parceiros do Project Glasswing, segundo a Anthropic. Mas o Opus 4.6 construiu 2 exploits do Firefox sozinho, segundo a Anthropic. A barreira de acesso está caindo.
O teste mediu velocidade de desenvolvimento de exploit, não velocidade de campanha completa. Descoberta de alvo, entrega e evasão de detecção ainda levam tempo. Mas a etapa mais cara e demorada do ciclo — o desenvolvimento do exploit — foi comprimida de semanas para horas.
A leitura que a Anthropic apresenta é que o conceito de N-day se tornou perigosamente enganoso, e N-hour está mais próximo da realidade em que agora operamos. Na Tech86, a leitura é clara: o custo por cadeia de exploit caiu para US$ 2 mil, o tempo caiu para horas, e a classificação de risco do vendor não prediz explorabilidade. O ciclo de patch mensal tornou-se estruturalmente inadequado para a velocidade de desenvolvimento de exploit por IA. Se sua defesa depende de janelas de dias, você está operando com uma premissa que não corresponde mais à realidade.
