O primeiro worm autônomo que se propaga entre LLM agents sem interação humana. Zero-click. Cross-platform. 3 hops entre frameworks heterogêneos. E a defesa precisa de um teorema formal para pará-lo. Na Tech86, analisamos o primeiro framework sistemático para worms em ecossistemas multi-agent com file-backed memory — e a conclusão é que agents com estado persistente são vetores de propagação autônoma. Isso é um worm que se replica, não prompt injection pontual.
O mecanismo: Write → Re-entry → Action
LLM agents operam como processos long-running com workspaces, memória, scheduled tasks, tools e messaging channels. O worm explora exatamente essa arquitetura. Conteúdo de atacante é escrito em estado persistente — um arquivo de configuração, um item de memória, uma mensagem em channel. Esse conteúdo re-entra no contexto LLM via autoloading: o agent carrega o arquivo na inicialização, lê a mensagem do channel, acessa o item de memória. O payload entra no contexto e drive ações de alto risco — incluindo propagação para outros agents.
O ciclo é simples e devastador: Write → Re-entry → Action. O conteúdo malicioso é escrito em um carrier. O carrier é autoloadado. O conteúdo entra no contexto LLM. O agent propaga o worm. Nenhum humano precisa clicar, aprovar ou interagir. A persistência faz o trabalho.
A diferença para prompt injection é fundamental. Prompt injection é um evento — você injeta, o model responde, acaba. Um worm em agent é um processo contínuo. O payload persiste no estado, re-entra a cada execução, e se propaga para novos hosts. É a diferença entre um vírus que infecta uma célula e um vírus que se replica no organismo inteiro.
Zero-click, cross-platform, 3 hops
Os resultados do framework são concretos. Propagação zero-click: nenhuma interação humana após a injeção inicial. O worm se propaga autonomamente entre agents que compartilham workspaces e messaging channels.
3-hop cross-platform: o worm propaga entre frameworks heterogêneos sem adaptação. Um agent em Framework A escreve o payload em um carrier. O carrier é lido por um agent em Framework B. O agent em Framework B propaga para Framework C. Três hops, três frameworks diferentes, zero modificação no payload.
Inter-agent privilege escalation via trust-based delegation: agents delegam ações a outros agents com níveis de privilégio crescentes. O worm escala privilégios atravessando essa cadeia de confiança. Data exfiltration de workspaces: o acesso persistente ao estado permite extrair dados sensíveis dos workspaces dos agents comprometidos.
Do insights que inverteram suposições. Primeiro: user prompt carriers são mais eficazes que system prompt carriers. O conteúdo que entra via prompts de usuário tem mais poder de hijack que conteúdo em system prompts. Segundo: read operations são a ameaça primária. Isso inverte a suposição de que write é o perigo. Writes sem re-entry são inertes. Reads são ativos — conteúdo lido hijacka comportamento.
SSCGV e SRPO: as ferramentas do ataque
O framework introduz duas ferramentas que tornam worms em agents sistemáticos e não artesanais.
SSCGV (Source-Code Graph Analyzer) traça o data flow de file I/O até injeção no contexto LLM. Ele analisa o código-fonte do agent, identifica todos os pontos onde arquivos são lidos e injetados no contexto, e rankeia carriers por posição de exposição. Zero análise manual. O SSCGV responde à pergunta: quais arquivos no workspace do agent são vetores de re-entry? Sem essa análise, você está chutando quais arquivos proteger.
SRPO (Summary-Resilient Payload Optimizer) resolve o problema que parecia ser uma defesa natural: summarization. Quando agents se comunicam em múltiplos hops, o conteúdo é resumido, parafraseado e comprimido. A suposição é que summarization destrói payloads. O SRPO prova o contrário. Ele gera payloads que sobrevivem summarization, paraphrasing e compression em comunicação multi-hop. Os payloads chegam intactos após 3+ hops entre frameworks heterogêneos. Summarization não é defesa — é superfície de ataque que SRPO explora.
A combinação de SSCGV e SRPO torna worms em agents uma disciplina engenheirada, não uma arte de prompt crafting. Você mapeia os carriers, otimiza o payload para sobreviver ao caminho, e deixa o ciclo autônomo fazer o resto.
RTW-A: defesa com garantia formal
Se o ataque é sistemático, a defesa não pode ser empírica. O RTW-A é um framework de defesa com garantia formal — o teorema "No Persistent Worm Propagation" prova que, sob RTW-A, conteúdo de atacante não pode completar a cadeia Write → Re-entry → Action.
Quatro mecanismos compõem o RTW-A. RTW constraint: bloqueia write-before-exposed-read re-entry. Se um agent lê conteúdo externo, qualquer write subsequente que poderia ser autoloadado é interceptado. Isso quebra o ciclo na raiz — sem re-entry, sem propagação.
Sealed configuration: protege arquivos autoloadados contra modificação por conteúdo externo. Se um arquivo de config é carrier, ele não pode ser alterado por dados lidos de fontes não confiáveis.
Typed memory promotion: previne summaries free-form em memória trusted. Resumos de conteúdo externo precisam passar por validação estrutural antes de entrar em memória de alto privilégio. Isso neutraliza SRPO — o payload pode sobreviver ao summarization, mas não passa pela barreira de tipagem.
Capability attenuation: limita ações de alto risco após reads externos. Mesmo que o payload entre no contexto, o agent tem capabilities reduzidas — não pode propagar mensagens, executar tools de alto risco ou escrever em workspaces de outros agents.
Juntos, esses mecanismos eliminam persistence → re-entry → action preservando workflows legítimos. O teorema formal garante que a defesa funciona por construção, não por observação.
O que isso significa para quem opera agents
Agents com estado persistente são vetores de propagação autônoma. Isso não é prompt injection pontual — é um worm que se replica entre processos long-running. Se seus agents compartilham workspaces e messaging channels, worms autônomos cross-platform já foram demonstrados.
Read operations são mais perigosas que writes. A intuição de segurança diz para proteger contra escrita maliciosa. Em ecossistemas multi-agent, o perigo está na leitura. Conteúdo lido hijacka comportamento. Proteger writes sem proteger reads é fechar a porta enquanto as janelas estão abertas.
Summarization não é defesa. SRPO gera payloads que sobrevivem multi-hop. Se sua estratégia de segurança conta com resumos e compressão para neutralizar payloads, ela não funciona. Coordinated disclosure está em andamento e frameworks foram anonimizados — mas o mecanismo está documentado e replicável.
Na Tech86, avaliamos arquiteturas de AI agents com foco em propagação de payloads e integridade de estado persistente. Se seus agents operam com file-backed memory, shared workspaces e canais de mensagens entre frameworks, worms autônomos cross-platform não são teoria — são um mecanismo demonstrado. E sem RTW-A ou equivalente, seu ecossistema não tem garantia formal contra propagação persistente.
