Pular para o conteúdo principal
Fechar
IA

MemPoison + MCFA: Ataques de Memória em LLM Agents

Gabriel Ferraresi· CEO | Tech863 de junho de 20265 min
memóriallmagentes iasegurançamemory poisoning

Um atacante conversa com seu LLM agent. Algumas mensagens depois, o agent grava uma memória falsa. Quando um usuário legítimo faz uma pergunta relacionada, o agent recupera a memória envenenada e executa a ação do atacante. Taxa de sucesso: até 95%. E piora: essa memória hijacka o control flow do agent — forçando tool selection, reordenando workflows, expandindo escopo entre tasks. Mais de 90% dos trials são vulneráveis. Memória de longo prazo em LLM agents é uma superfície de ataque, e as defesas atuais são insuficientes.

MemPoison — envenenamento que bypassa filtros

LLM agents com memória de longo prazo seguem um pipeline: extraem informações relevantes, reescrevem para compactar, armazenam e recuperam por similaridade de embedding. Pesquisas anteriores assumiam que um atacante escreveria diretamente no banco de memória. Na prática, selective extraction filtra conteúdo de baixa saliência. Memórias ingênuas são descartadas.

O MemPoison resolve isso com três técnicas. Semantic Relational Bridge liga trigger e payload em uma declaração coerente — o pipeline não separa sem perder contexto. Entity Masquerading otimiza a trigger para parecer uma named entity; LLMs preservam named entities verbatim na reescrita, então a trigger sobrevive. Joint Embedding Optimization empacota os textos envenenados em um cluster tight no embedding space, isolados dos benignos. O retrieval puxa a memória envenenada.

O resultado: ASR de até 0.95 entre diferentes domínios e mecanismos de memória. Perplexity filtering não detecta — os textos são semanticamente coerentes. Paraphrasing não remove — entity masquerading preserva a trigger após reescrita. O MemPoison funciona contra os próprios mecanismos que deveriam filtrar.

O detalhe técnico que importa: o MemPoison explora anisotropia no embedding space e redistribui attention patterns. O cluster envenenado cria uma região de alta densidade que atrai queries relacionadas, desviando o retrieval de memórias legítimas. Isso é uma vulnerabilidade estrutural — qualquer sistema de memória baseado em embedding similarity é potencialmente vulnerável.

MCFA — quando a memória hijacka o control flow

Memory Control Flow Attacks vão além de poluir o RAG. A memória recuperada hijacka o control flow do agent — tool selection e execução. O atacante não precisa de acesso ao system prompt, tools ou memory store. Basta interação padrão.

O framework MEMFLOW documentou os números. Tool Override: 91.7% a 100%. A memória força o agent a selecionar tools que não deveria. Com retrieval desligado, o override cai para 0% — a derivação é causada pela memória. Workflow Reordering: 52.8% a 69.4%. A memória reordena tool invocations, pulando steps de segurança. Cross-Task Scope Expansion: 97.2% a 100%. Uma injeção em uma task generaliza para templates diferentes, propagando entre domínios. Persistência: 100% em horizontes longos. Correções textuais post-hoc falham em 100% dos casos — o agent recai no comportamento malicioso na próxima recuperação.

Testado em GPT-5 mini, Claude Sonnet 4.5 e Gemini 2.5 Flash, nos frameworks LangChain e LlamaIndex. Todos vulneráveis. A vulnerabilidade está no design de memória, não na implementação.

Por que as defesas atuais falham

System prompts não protegem. Quando o retrieval está ativo, a memória override as instruções de segurança. O dado é claro: tool override chega a 100% com retrieval ON e cai para 0% com retrieval OFF. A memória é mais forte que a instrução.

Selective extraction filtra ruído, não payloads coerentes. O MemPoison demonstrou que declarações semanticamente coerentes atravessam o pipeline intactas. Filtrar por saliência pressupõe que conteúdo malicioso tem baixa saliência — não é o caso.

Correções textuais não funcionam. O MCFA mostrou que o agent recai na próxima recuperação. A memória é um backdoor durável — corrigir a instrução não remove a memória envenenada.

Mesmo mitigações production-style como dual-channel memory com role-based segregation mostram 85%+ de control flow deviations. Reduz, não elimina. A arquitetura de memória compartilhada entre tasks é o problema fundamental.

O cenário de maior risco: multi-tenant agents

Agents que atendem múltiplos usuários com o mesmo memory store são o cenário mais crítico. Um atacante envenena a memória em uma interação. Todos os usuários subsequentes são afetados. O MemPoison explora isso diretamente: o cluster envenenado no embedding space atrai queries de qualquer usuário que faça perguntas relacionadas.

O risco é multiplicado pela persistência. A memória envenenada não expira. Em horizontes longos, o MCFA documenta 100% de persistência. Cada recuperação reativa o comportamento malicioso. Não há decay natural.

O que verificamos na Tech86

Avaliamos arquiteturas de AI agents com foco em superfícies de ataque de memória e retrieval. Se seus agents usam memória persistente sem isolamento entre usuários, você está a uma conversa de um ataque com 95% de sucesso. Se usam memória com retrieval e tools de alto risco, mais de 90% dos cenários são vulneráveis a control flow hijacking.

O primeiro passo é mapear: quais agents usam memória persistente, qual mecanismo de retrieval, se o memory store é compartilhado. Depois isolar, monitorar e testar adversarialmente. Sem teste adversarial, você não sabe se suas mitigações funcionam — ou se apenas reduzem o problema para 85% de desvios em vez de 100%.

Interessado nesta solução?

Conheça nossos serviços gerenciados e infraestrutura.

Conheça Segurança Ofensiva

Perguntas Frequentes

Não. Quando o retrieval está ativo, a memória recuperada override as instruções de segurança do system prompt. O MCFA demonstrou que tool override chega a 100% com retrieval ativo — e cai para 0% quando o retrieval é desligado. A memória é mais forte que a instrução.

Filtragem por saliência remove ruído, não payloads coerentes. O MemPoison usa Semantic Relational Bridge para ligar trigger e payload em declarações semanticamente coerentes, e Entity Masquerading para que a reescrita preserve a trigger verbatim. O pipeline não separa sem perder contexto.

Não. Correções textuais post-hoc falham em 100% dos casos testados pelo MCFA. O agent recai no comportamento malicioso na próxima recuperação de memória. A memória é um backdoor durável — a correção precisa ser na memória, não na instrução.

Os testes cobriram GPT-5 mini, Claude Sonnet 4.5 e Gemini 2.5 Flash nos frameworks LangChain e LlamaIndex. Todos são vulneráveis. A vulnerabilidade está no design de memória, não na implementação específica de qualquer modelo.

Reduz, mas não elimina. Mesmo com memória dual-channel e role-based segregation, mais de 85% dos cenários ainda apresentam control flow deviations. É uma mitigação, não uma solução.

Blog — Fale Conosco

Tem alguma pergunta sobre nossos artigos ou serviços? Nossa equipe está pronta para ajudar.

Agendar Reunião

Reserve um horário.

Agendar Agora

E-mail

Envie uma mensagem.

[email protected]

WhatsApp

Conversa rápida.

Endereço

Avenida Paulista, 1636 - São Paulo - SP - 01310-200

Especialista Tech86

Online agora

Olá! Como podemos ajudar a escalar seu negócio hoje?

Tech86 Engineering

Nós valorizamos sua privacidade

Utilizamos cookies e tecnologias similares para otimizar a sua experiência, analisar o tráfego do site e personalizar conteúdo. Ao clicar "Aceitar Todos", você concorda com o uso de todos os cookies. Leia nossa Política de Privacidade.