O que é um LLM Agent Worm?

É um worm que se propaga entre LLM agents explorando estado persistente — workspaces, memória, arquivos autoloadados. Conteúdo malicioso é escrito em um carrier, re-entra via autoloading, e direciona ações de alto risco incluindo propagação para outros agents. Zero interação humana necessária.

Como a propagação zero-click funciona na prática?

O ciclo é Write → Re-entry → Action. Conteúdo de atacante é escrito em um arquivo persistente no workspace do agent. Esse arquivo é autoloadado na próxima execução, injetando o payload no contexto LLM. O agent então executa ações de alto risco — incluindo escrever o payload em carriers de outros agents. Sem clique, sem prompt, sem humano.

Por que read operations são mais perigosas que writes?

Porque conteúdo lido sequestra comportamento. A suposição comum é que writes são o perigo — alguém escrevendo em seus arquivos. Mas em ecossistemas multi-agent, reads de fontes externas injetam conteúdo no contexto LLM que direciona ações. O agent lê algo, interpreta como instrução, e age. Writes sem re-entry são inertes. Reads são ativos.

Worms em LLM Agents: Propagação Zero-Click Entre Frameworks

Q: Summarization não elimina payloads maliciosos?

Não. O SRPO (Summary-Resilient Payload Optimizer) gera payloads que sobrevivem summarization, paraphrasing e compression em comunicação multi-hop. Os payloads chegam intactos após 3+ hops entre frameworks heterogêneos. Summarization não é defesa — é superfície de ataque que SRPO explora.

Q: O que é RTW-A e por que precisa de um teorema formal?

RTW-A é um framework de defesa com garantia formal. O teorema 'No Persistent Worm Propagation' prova que, sob RTW-A, conteúdo de atacante não pode completar a cadeia Write → Re-entry → Action. Sem garantia formal, qualquer defesa é empírica — funciona até não funcionar. Um teorema prova que não funciona por construção.

O primeiro worm autônomo que se propaga entre LLM agents sem interação humana. Zero-click. Cross-platform. 3 hops entre frameworks heterogêneos. E a defesa precisa de um teorema formal para pará-lo. Na Tech86, analisamos o primeiro framework sistemático para worms em ecossistemas multi-agent com file-backed memory — e a conclusão é que agents com estado persistente são vetores de propagação autônoma. Isso é um worm que se replica, não prompt injection pontual.

O mecanismo: Write → Re-entry → Action

LLM agents operam como processos long-running com workspaces, memória, scheduled tasks, tools e messaging channels. O worm explora exatamente essa arquitetura. Conteúdo de atacante é escrito em estado persistente — um arquivo de configuração, um item de memória, uma mensagem em channel. Esse conteúdo re-entra no contexto LLM via autoloading: o agent carrega o arquivo na inicialização, lê a mensagem do channel, acessa o item de memória. O payload entra no contexto e direciona ações de alto risco — incluindo propagação para outros agents.

O ciclo é simples e devastador: Write → Re-entry → Action. O conteúdo malicioso é escrito em um carrier. O carrier é autoloadado. O conteúdo entra no contexto LLM. O agent propaga o worm. Nenhum humano precisa clicar, aprovar ou interagir. A persistência faz o trabalho.

A diferença para prompt injection é fundamental. Prompt injection é um evento — você injeta, o model responde, acaba. Um worm em agent é um processo contínuo. O payload persiste no estado, re-entra a cada execução, e se propaga para novos hosts. É a diferença entre um vírus que infecta uma célula e um vírus que se replica no organismo inteiro.

Zero-click, cross-platform, 3 hops

Os resultados do framework são concretos. Propagação zero-click: nenhuma interação humana após a injeção inicial. O worm se propaga autonomamente entre agents que compartilham workspaces e messaging channels.

3-hop cross-platform: o worm propaga entre frameworks heterogêneos sem adaptação. Um agent em Framework A escreve o payload em um carrier. O carrier é lido por um agent em Framework B. O agent em Framework B propaga para Framework C. Três hops, três frameworks diferentes, zero modificação no payload.

Inter-agent privilege escalation via trust-based delegation: agents delegam ações a outros agents com níveis de privilégio crescentes. O worm escala privilégios atravessando essa cadeia de confiança. Data exfiltration de workspaces: o acesso persistente ao estado permite extrair dados sensíveis dos workspaces dos agents comprometidos.

Do insights que inverteram suposições. Primeiro: user prompt carriers são mais eficazes que system prompt carriers. O conteúdo que entra via prompts de usuário tem mais poder de sequestro que conteúdo em system prompts. Segundo: read operations são a ameaça primária. Isso inverte a suposição de que write é o perigo. Writes sem re-entry são inertes. Reads são ativos — conteúdo lido sequestra comportamento.

SSCGV e SRPO: as ferramentas do ataque

O framework introduz duas ferramentas que tornam worms em agents sistemáticos e não artesanais.

SSCGV (Source-Code Graph Analyzer) traça o data flow de file I/O até injeção no contexto LLM. Ele analisa o código-fonte do agent, identifica todos os pontos onde arquivos são lidos e injetados no contexto, e rankeia carriers por posição de exposição. Zero análise manual. O SSCGV responde à pergunta: quais arquivos no workspace do agent são vetores de re-entry? Sem essa análise, você está chutando quais arquivos proteger.

SRPO (Summary-Resilient Payload Optimizer) resolve o problema que parecia ser uma defesa natural: summarization. Quando agents se comunicam em múltiplos hops, o conteúdo é resumido, parafraseado e comprimido. A suposição é que summarization destrói payloads. O SRPO prova o contrário. Ele gera payloads que sobrevivem summarization, paraphrasing e compression em comunicação multi-hop. Os payloads chegam intactos após 3+ hops entre frameworks heterogêneos. Summarization não é defesa — é superfície de ataque que SRPO explora.

A combinação de SSCGV e SRPO torna worms em agents uma disciplina engenheirada, não uma arte de prompt crafting. Você mapeia os carriers, otimiza o payload para sobreviver ao caminho, e deixa o ciclo autônomo fazer o resto.

RTW-A: defesa com garantia formal

Se o ataque é sistemático, a defesa não pode ser empírica. O RTW-A é um framework de defesa com garantia formal — o teorema "No Persistent Worm Propagation" prova que, sob RTW-A, conteúdo de atacante não pode completar a cadeia Write → Re-entry → Action.

Quatro mecanismos compõem o RTW-A. RTW constraint: bloqueia write-before-exposed-read re-entry. Se um agent lê conteúdo externo, qualquer write subsequente que poderia ser autoloadado é interceptado. Isso quebra o ciclo na raiz — sem re-entry, sem propagação.

Sealed configuration: protege arquivos autoloadados contra modificação por conteúdo externo. Se um arquivo de config é carrier, ele não pode ser alterado por dados lidos de fontes não confiáveis.

Typed memory promotion: previne summaries free-form em memória trusted. Resumos de conteúdo externo precisam passar por validação estrutural antes de entrar em memória de alto privilégio. Isso neutraliza SRPO — o payload pode sobreviver ao summarization, mas não passa pela barreira de tipagem.

Capability attenuation: limita ações de alto risco após reads externos. Mesmo que o payload entre no contexto, o agent tem capabilities reduzidas — não pode propagar mensagens, executar tools de alto risco ou escrever em workspaces de outros agents.

Juntos, esses mecanismos eliminam persistence → re-entry → action preservando workflows legítimos. O teorema formal garante que a defesa funciona por construção, não por observação.

O que isso significa para quem opera agents

Agents com estado persistente são vetores de propagação autônoma. Isso não é prompt injection pontual — é um worm que se replica entre processos long-running. Se seus agents compartilham workspaces e messaging channels, worms autônomos cross-platform já foram demonstrados.

Read operations são mais perigosas que writes. A intuição de segurança diz para proteger contra escrita maliciosa. Em ecossistemas multi-agent, o perigo está na leitura. Conteúdo lido sequestra comportamento. Proteger writes sem proteger reads é fechar a porta enquanto as janelas estão abertas.

Summarization não é defesa. SRPO gera payloads que sobrevivem multi-hop. Se sua estratégia de segurança conta com resumos e compressão para neutralizar payloads, ela não funciona. Coordinated disclosure está em andamento e frameworks foram anonimizados — mas o mecanismo está documentado e replicável.

Na Tech86, avaliamos arquiteturas de AI agents com foco em propagação de payloads e integridade de estado persistente. Se seus agents operam com file-backed memory, shared workspaces e canais de mensagens entre frameworks, worms autônomos cross-platform não são teoria — são um mecanismo demonstrado. E sem RTW-A ou equivalente, seu ecossistema não tem garantia formal contra propagação persistente.

Worms em LLM Agents: Propagação Zero-Click Entre Frameworks

O mecanismo: Write → Re-entry → Action

Zero-click, cross-platform, 3 hops

SSCGV e SRPO: as ferramentas do ataque

RTW-A: defesa com garantia formal

O que isso significa para quem opera agents

Perguntas Frequentes

O que é um LLM Agent Worm?

Como a propagação zero-click funciona na prática?

Summarization não elimina payloads maliciosos?

Por que read operations são mais perigosas que writes?

O que é RTW-A e por que precisa de um teorema formal?

Blog — Fale Conosco

Agendar Reunião

E-mail

WhatsApp

Endereço

Especialista Tech86

Nós valorizamos sua privacidade