System prompts não protegem contra ataques de memória?

Não. Quando o retrieval está ativo, a memória recuperada override as instruções de segurança do system prompt. O MCFA demonstrou que substituição de ferramenta chega a 100% com retrieval ativo — e cai para 0% quando o retrieval é desligado. A memória é mais forte que a instrução.

Selective extraction não filtra memórias maliciosas?

Filtragem por saliência remove ruído, não payloads coerentes. O MemPoison usa Semantic Relational Bridge para ligar trigger e payload em declarações semanticamente coerentes, e Entity Masquerading para que a reescrita preserve a trigger verbatim. O pipeline não separa sem perder contexto.

Quais LLMs e frameworks são vulneráveis?

Os testes cobriram GPT-5 mini, Claude Sonnet 4.5 e Gemini 2.5 Flash nos frameworks LangChain e LlamaIndex. Todos são vulneráveis. A vulnerabilidade está no design de memória, não na implementação específica de qualquer modelo.

Memória de canal duplo com segregação por papel resolve?

Reduz, mas não elimina. Mesmo com memória de canal duplo e segregação por papel, mais de 85% dos cenários ainda apresentam desvios de fluxo de controle. É uma mitigação, não uma solução.

MemPoison + MCFA: Ataques de Memória em LLM Agents

Q: Corrigir o comportamento do agent após detecção resolve?

Não. Correções textuais post-hoc falham em 100% dos casos testados pelo MCFA. O agent recai no comportamento malicioso na próxima recuperação de memória. A memória é um backdoor durável — a correção precisa ser na memória, não na instrução.

Um atacante conversa com seu LLM agent. Algumas mensagens depois, o agent grava uma memória falsa. Quando um usuário legítimo faz uma pergunta relacionada, o agent recupera a memória envenenada e executa a ação do atacante. Taxa de sucesso: até 95%, segundo o paper MEMFLOW. E piora: essa memória sequestra o fluxo de controle do agent — forçando tool selection, reordenando workflows, expandindo escopo entre tasks. Mais de 90% dos trials são vulneráveis, segundo o paper MEMFLOW. Memória de longo prazo em LLM agents é uma superfície de ataque, e as defesas atuais são insuficientes.

MemPoison — envenenamento que bypassa filtros

LLM agents com memória de longo prazo seguem um pipeline: extraem informações relevantes, reescrevem para compactar, armazenam e recuperam por similaridade de embedding. Pesquisas anteriores assumiam que um atacante escreveria diretamente no banco de memória. Na prática, selective extraction filtra conteúdo de baixa saliência. Memórias ingênuas são descartadas.

O MemPoison resolve isso com três técnicas. Semantic Relational Bridge liga trigger e payload em uma declaração coerente — o pipeline não separa sem perder contexto. Entity Masquerading otimiza a trigger para parecer uma named entity; LLMs preservam named entities verbatim na reescrita, então a trigger sobrevive. Joint Embedding Optimization empacota os textos envenenados em um cluster tight no embedding space, isolados dos benignos. O retrieval puxa a memória envenenada.

O resultado: ASR de até 0.95 entre diferentes domínios e mecanismos de memória. Perplexity filtering não detecta — os textos são semanticamente coerentes. Paraphrasing não remove — entity masquerading preserva a trigger após reescrita. O MemPoison funciona contra os próprios mecanismos que deveriam filtrar.

O detalhe técnico que importa: o MemPoison explora anisotropia no embedding space e redistribui attention patterns. O cluster envenenado cria uma região de alta densidade que atrai queries relacionadas, desviando o retrieval de memórias legítimas. Isso é uma vulnerabilidade estrutural — qualquer sistema de memória baseado em embedding similarity é potencialmente vulnerável.

MCFA — quando a memória sequestra o fluxo de controle

Memory Control Flow Attacks vão além de poluir o RAG. A memória recuperada sequestra o fluxo de controle do agent — tool selection e execução. O atacante não precisa de acesso ao system prompt, tools ou memory store. Basta interação padrão.

O framework MEMFLOW documentou os números. Substituição de ferramenta: 91.7% a 100%. A memória força o agent a selecionar tools que não deveria. Com retrieval desligado, o override cai para 0% — a derivação é causada pela memória. Reordenação de fluxo de trabalho: 52.8% a 69.4%. A memória reordena tool invocations, pulando steps de segurança. Expansão de escopo entre tarefas: 97.2% a 100%. Uma injeção em uma task generaliza para templates diferentes, propagando entre domínios. Persistência: 100% em horizontes longos. Correções textuais post-hoc falham em 100% dos casos — o agent recai no comportamento malicioso na próxima recuperação.

Testado em GPT-5 mini, Claude Sonnet 4.5 e Gemini 2.5 Flash, nos frameworks LangChain e LlamaIndex. Todos vulneráveis. A vulnerabilidade está no design de memória, não na implementação.

Por que as defesas atuais falham

System prompts não protegem. Quando o retrieval está ativo, a memória override as instruções de segurança. O dado é claro: substituição de ferramenta chega a 100% com retrieval ON e cai para 0% com retrieval OFF. A memória é mais forte que a instrução.

Selective extraction filtra ruído, não payloads coerentes. O MemPoison demonstrou que declarações semanticamente coerentes atravessam o pipeline intactas. Filtrar por saliência pressupõe que conteúdo malicioso tem baixa saliência — não é o caso.

Correções textuais não funcionam. O MCFA mostrou que o agent recai na próxima recuperação. A memória é um backdoor durável — corrigir a instrução não remove a memória envenenada.

Mesmo mitigações estilo de produção como memória de canal duplo com segregação por papel mostram 85%+ de desvios de fluxo de controle, segundo o paper. Reduz, não elimina. A arquitetura de memória compartilhada entre tasks é o problema fundamental.

O cenário de maior risco: multi-tenant agents

Agents que atendem múltiplos usuários com o mesmo memory store são o cenário mais crítico. Um atacante envenena a memória em uma interação. Todos os usuários subsequentes são afetados. O MemPoison explora isso diretamente: o cluster envenenado no embedding space atrai queries de qualquer usuário que faça perguntas relacionadas.

O risco é multiplicado pela persistência. A memória envenenada não expira. Em horizontes longos, o MCFA documenta 100% de persistência. Cada recuperação reativa o comportamento malicioso. Não há decay natural.

O que verificamos na Tech86

Avaliamos arquiteturas de AI agents com foco em superfícies de ataque de memória e retrieval. Se seus agents usam memória persistente sem isolamento entre usuários, você está a uma conversa de um ataque com 95% de sucesso. Se usam memória com retrieval e tools de alto risco, mais de 90% dos cenários são vulneráveis a sequestro de fluxo de controle.

O primeiro passo é mapear: quais agents usam memória persistente, qual mecanismo de retrieval, se o memory store é compartilhado. Depois isolar, monitorar e testar adversarialmente. Sem teste adversarial, você não sabe se suas mitigações funcionam — ou se apenas reduzem o problema para 85% de desvios em vez de 100%.

MemPoison + MCFA: Ataques de Memória em LLM Agents

MemPoison — envenenamento que bypassa filtros

MCFA — quando a memória sequestra o fluxo de controle

Por que as defesas atuais falham

O cenário de maior risco: multi-tenant agents

O que verificamos na Tech86

Perguntas Frequentes

System prompts não protegem contra ataques de memória?

Selective extraction não filtra memórias maliciosas?

Corrigir o comportamento do agent após detecção resolve?

Quais LLMs e frameworks são vulneráveis?

Memória de canal duplo com segregação por papel resolve?

Blog — Fale Conosco

Agendar Reunião

E-mail

WhatsApp

Endereço

Especialista Tech86

Nós valorizamos sua privacidade