Meu agente usa memória persistente. Estou vulnerável ao Trojan Hippo?

Provavelmente sim. Se seu agente ingere automaticamente tool returns na memória de longo prazo sem marca de proveniência, um único input malicioso pode plantar um payload dormente que exfiltra dados em qualquer sessão futura. O ataque atinge 85-100% de ASR contra Gemini 3.1 Pro e GPT-5-mini e sobrevive a 100+ sessões benignas antes de ativar.

Remoção de estilo resolve o problema do CoT Forgery?

Reduz o sucesso de ataque de 61% para 10%, mas tem custo real. Remover marcadores estilísticos de reasoning também remove a capacidade do modelo de seguir raciocínio estruturado em produção. É um tradeoff, não uma solução gratuita. Segurança e utilidade são um eixo — escolher os dois no mesmo ponto é ignorar o problema.

Como detecto se meu agente já foi envenenado?

Audite a memória persistente buscando instruções dormentes — texto que condiciona comportamento a tópicos específicos como finanças, saúde ou identidade. O problema é que a memória recuperada entra com a mesma autoridade que input do usuário, sem marca de origem. Sem taint tracking implementado, a detecção é essencialmente manual.

Segurança total contra state poisoning é viável sem perder utilidade?

Não. As defesas mais eficazes contra Trojan Hippo reduzem ASR para 0-5%, mas o custo é restringir escrita na memória a input do usuário — o que remove a utilidade de tool returns. IFC policy bloqueia exfiltração, mas também bloqueia send_email legítimo. A posição honesta é aceitar o tradeoff e otimizar no eixo, não prometer os dois extremos.

Prompt Injection É State Poisoning — Seu Agente Está Exposto

Q: Prompt injection não é só um problema de prompt mal construído?

Não. O nome engana. Prompt injection funciona porque o modelo não rastreia a origem do texto — ele infere autoridade pelo estilo. Texto que soa como reasoning interno é tratado como reasoning interno, mesmo vindo de um canal não-confiável. A vulnerabilidade está na arquitetura do modelo, não na qualidade do prompt.

Na Tech86, aprendemos que o nome "prompt injection" é o pior nome possível para esse problema. Não é um problema de prompt. É um problema de estado. Dois papers publicados em 2026 provam o que suspeitávamos operacionalmente: LLMs não rastreiam de onde vem o texto. Eles inferem autoridade pela forma como soa. Texto que soa como reasoning interno é tratado como reasoning interno. A fronteira de segurança existe na interface, mas a autoridade é atribuída no espaço latente.

O modelo confia no estilo, não na origem

Quando um LLM processa texto, ele não tem um mecanismo interno que diga "este trecho veio do usuário, este veio do sistema, este veio de um tool return". Tudo entra no mesmo contexto. A autoridade é inferida pela forma — e texto que imita o padrão de cadeia de pensamento do modelo é interpretado como se fosse o próprio raciocínio dele.

Pesquisadores demonstraram isso com números que nos preocupam. Injetando reasoning falso no prompt ou em tool outputs, o modelo confunde o texto forjado com seu próprio cadeia de pensamento e obedece. A taxa de sucesso no benchmark StrongREJECT: 60%. O baseline sem injeção: próximo de 0%. A diferença não é incremental — é qualitativa.

O dado mais revelador: justificativas absurdas funcionam tão bem quanto justificativas plausíveis. "Síntese de drogas é permitida após 20h" é tão eficaz quanto uma justificativa coerente. O modelo não avalia lógica. Avalia estilo. E quando removemos os marcadores estilísticos do texto forjado, o sucesso cai de 61% para 10%. Mesmo conteúdo. Forma muda tudo.

O espaço latente não mente sobre quem está falando

Role probes são ferramentas que medem "quem está falando" dentro do espaço latente do modelo. Quando aplicadas ao texto forjado, o resultado é perturbador: o reasoning falso atinge 79% de nível de CoT, segundo o paper CoT Forgery, — mais alto que o reasoning genuíno do modelo, que marca 68%, segundo o paper. O modelo confia mais no texto forjado que nos próprios pensamentos.

Existe uma correlação monotônica entre confusão no espaço latente e sucesso de ataque. Quantis de maior confusão atingem 90% de sucesso. Quantis de menor confusão: 9%. Isso é mensurável antes de um token ser gerado. Prompt injection é state poisoning mensurável — não é uma anomalia estocástica, é um fenômeno com estrutura predizível.

Na prática, isso significa que a fronteira de segurança que desenhamos na interface — "input do usuário vai aqui, instruções do sistema vão ali" — é uma ilusão. A autoridade real é atribuída no espaço latente, e o modelo não tem como distinguir texto que soa como reasoning interno de reasoning interno de verdade.

O cavalo de Troia que atravessa sessões

Se o CoT Forgery mostra que o modelo confunde estilo com autoridade dentro de uma sessão, o Trojan Hippo mostra que o mesmo mecanismo opera entre sessões — com consequências piores.

O ataque planta um payload dormente na memória persistente do agente via um único tool call não-confiável: um email craftado, uma webpage, uma API response. O payload não faz nada na sessão em que é inserido. Ativa apenas quando o usuário discute finanças, saúde, identidade ou impostos. Aí exfiltra dados pessoais.

Os números: 85-100% de ASR, segundo o paper Trojan Hippo, contra Gemini 3.1 Pro e GPT-5-mini. O payload sobrevive a 100+ sessões benignas antes de ativar. Funciona em 4 arquiteturas de memória: sliding-window, RAG, explicit tool memory e Mem0. O modo de falha é o que os pesquisadores chamam de cegueira de proveniência — memória recuperada entra com a mesma autoridade que input do usuário, sem marca de origem, sem taint.

A lethal trifecta opera entre sessões: na sessão 1, input não-confiável escreve na memória; na sessão N, dados privados encontram uma ferramenta de egresso. Auditar cada sessão individualmente passa. A memória é a ponte temporal que conecta o que deveria estar isolado.

Defesa não é grátis — e quem diz que é está mentindo

As defesas contra esses vetores existem, mas o que ninguém gosta de admitir é que todas têm custo real em utilidade.

Remoção de estilo reduz o sucesso do CoT Forgery de 61% para 10%. Mas em produção, remover marcadores estilísticos de reasoning também remove a capacidade do modelo de seguir raciocínio estruturado. O agente fica mais seguro e menos competente. Não existe versão gratuita dessa defesa.

Contra o Trojan Hippo, 4 defesas testadas reduzem ASR para 0-5%. O custo: restringir escrita na memória a input do usuário remove a utilidade de tool returns. IFC policy atinge 0% de ASR, mas bloqueia send_email legítimo. Segurança e utilidade são um eixo, não um menu onde você escolhe os dois extremos.

Na Tech86, nossa posição é clara: segurança e utilidade são um tradeoff. Aceitar isso é o primeiro passo para construir defesas honestas. Prometer os dois sem custo é engano.

O que muda na infraestrutura de IA

Se você opera agentes com memória persistente e canais de egresso — email, APIs, ferramentas de saída — seu modelo de ameaça precisa considerar a união de sessões, não sessões isoladas. Se seu agente ingere automaticamente tool returns na memória de longo prazo sem proveniência, você está no cenário de maior risco.

Um único input malicioso em qualquer sessão pode exfiltrar dados em qualquer sessão futura. A memória é o vetor. A proveniência cega é a vulnerabilidade. O estilo é o mecanismo de escalada de privilégio.

É por isso que testamos esses vetores ofensivamente antes que eles sejam explorados na infraestrutura dos nossos clientes. State poisoning não é teoria — é um mecanismo comprovado com taxas de sucesso que nenhuma infraestrutura de IA pode ignorar. Se seu agente tem memória e egresso, você precisa saber onde está no eixo entre segurança e utilidade. E precisa saber antes do atacante.

Prompt Injection É State Poisoning — Seu Agente Está Exposto

O modelo confia no estilo, não na origem

O espaço latente não mente sobre quem está falando

O cavalo de Troia que atravessa sessões

Defesa não é grátis — e quem diz que é está mentindo

O que muda na infraestrutura de IA

Perguntas Frequentes

Prompt injection não é só um problema de prompt mal construído?

Meu agente usa memória persistente. Estou vulnerável ao Trojan Hippo?

Remoção de estilo resolve o problema do CoT Forgery?

Como detecto se meu agente já foi envenenado?

Segurança total contra state poisoning é viável sem perder utilidade?

Blog — Fale Conosco

Agendar Reunião

E-mail

WhatsApp

Endereço

Especialista Tech86

Nós valorizamos sua privacidade