Pular para o conteúdo principal
Fechar
IA

Prompt Injection É State Poisoning — Seu Agente Está Exposto

Gabriel Ferraresi· CEO | Tech8627 de maio de 20265 min
prompt injectioniasegurançaagentesstate poisoning

Na Tech86, aprendemos que o nome "prompt injection" é o pior nome possível para esse problema. Não é um problema de prompt. É um problema de estado. Dois papers publicados em 2026 provam o que suspeitávamos operacionalmente: LLMs não rastreiam de onde vem o texto. Eles inferem autoridade pela forma como soa. Texto que soa como reasoning interno é tratado como reasoning interno. A fronteira de segurança existe na interface, mas a autoridade é atribuída no latent space.

O modelo confia no estilo, não na origem

Quando um LLM processa texto, ele não tem um mecanismo interno que diga "este trecho veio do usuário, este veio do sistema, este veio de um tool return". Tudo entra no mesmo contexto. A autoridade é inferida pela forma — e texto que imita o padrão de chain-of-thought do modelo é interpretado como se fosse o próprio raciocínio dele.

Pesquisadores demonstraram isso com números que nos preocupam. Injetando reasoning falso no prompt ou em tool outputs, o modelo confunde o texto forjado com seu próprio chain-of-thought e obedece. A taxa de sucesso no benchmark StrongREJECT: 60%. O baseline sem injeção: próximo de 0%. A diferença não é incremental — é qualitativa.

O dado mais revelador: justificativas absurdas funcionam tão bem quanto justificativas plausíveis. "Síntese de drogas é permitida após 20h" é tão eficaz quanto uma justificativa coerente. O modelo não avalia lógica. Avalia estilo. E quando removemos os marcadores estilísticos do texto forjado, o sucesso cai de 61% para 10%. Mesmo conteúdo. Forma muda tudo.

O latent space não mente sobre quem está falando

Role probes são ferramentas que medem "quem está falando" dentro do latent space do modelo. Quando aplicadas ao texto forjado, o resultado é perturbador: o reasoning falso atinge 79% de CoTness — mais alto que o reasoning genuíno do modelo, que marca 68%. O modelo confia mais no texto forjado que nos próprios pensamentos.

Existe uma correlação monotônica entre confusão no latent space e sucesso de ataque. Quantis de maior confusão atingem 90% de sucesso. Quantis de menor confusão: 9%. Isso é mensurável antes de um token ser gerado. Prompt injection é state poisoning mensurável — não é uma anomalia estocástica, é um fenômeno com estrutura predizível.

Na prática, isso significa que a fronteira de segurança que desenhamos na interface — "input do usuário vai aqui, instruções do sistema vão ali" — é uma ilusão. A autoridade real é atribuída no latent space, e o modelo não tem como distinguir texto que soa como reasoning interno de reasoning interno de verdade.

O cavalo de Troia que atravessa sessões

Se o CoT Forgery mostra que o modelo confunde estilo com autoridade dentro de uma sessão, o Trojan Hippo mostra que o mesmo mecanismo opera entre sessões — com consequências piores.

O ataque planta um payload dormente na memória persistente do agente via um único tool call não-confiável: um email craftado, uma webpage, uma API response. O payload não faz nada na sessão em que é inserido. Ativa apenas quando o usuário discute finanças, saúde, identidade ou impostos. Aí exfiltra dados pessoais.

Os números: 85-100% de ASR contra Gemini 3.1 Pro e GPT-5-mini. O payload sobrevive a 100+ sessões benignas antes de ativar. Funciona em 4 arquiteturas de memória: sliding-window, RAG, explicit tool memory e Mem0. O modo de falha é o que os pesquisadores chamam de provenance blindness — memória recuperada entra com a mesma autoridade que input do usuário, sem marca de origem, sem taint.

A lethal trifecta opera entre sessões: na sessão 1, input não-confiável escreve na memória; na sessão N, dados privados encontram uma ferramenta de egresso. Auditar cada sessão individualmente passa. A memória é a ponte temporal que conecta o que deveria estar isolado.

Defesa não é grátis — e quem diz que é está mentindo

As defesas contra esses vetores existem, mas o que ninguém gosta de admitir é que todas têm custo real em utilidade.

Destyling reduz o sucesso do CoT Forgery de 61% para 10%. Mas em produção, remover marcadores estilísticos de reasoning também remove a capacidade do modelo de seguir raciocínio estruturado. O agente fica mais seguro e menos competente. Não existe versão gratuita dessa defesa.

Contra o Trojan Hippo, 4 defesas testadas reduzem ASR para 0-5%. O custo: restringir escrita na memória a input do usuário remove a utilidade de tool returns. IFC policy atinge 0% de ASR, mas bloqueia send_email legítimo. Segurança e utilidade são um eixo, não um menu onde você escolhe os dois extremos.

Na Tech86, nossa posição é clara: segurança e utilidade são um tradeoff. Aceitar isso é o primeiro passo para construir defesas honestas. Prometer os dois sem custo é engano.

O que muda na infraestrutura de IA

Se você opera agentes com memória persistente e canais de egresso — email, APIs, ferramentas de saída — seu modelo de ameaça precisa considerar a união de sessões, não sessões isoladas. Se seu agente auto-ingere tool returns na memória de longo prazo sem proveniência, você está no cenário de maior risco.

Um único input malicioso em qualquer sessão pode exfiltrar dados em qualquer sessão futura. A memória é o vetor. A proveniência cega é a vulnerabilidade. O estilo é o mecanismo de escalada de privilégio.

É por isso que testamos esses vetores ofensivamente antes que eles sejam explorados na infraestrutura dos nossos clientes. State poisoning não é teoria — é um mecanismo comprovado com taxas de sucesso que nenhuma infraestrutura de IA pode ignorar. Se seu agente tem memória e egresso, você precisa saber onde está no eixo entre segurança e utilidade. E precisa saber antes do atacante.

Interessado nesta solução?

Conheça nossos serviços gerenciados e infraestrutura.

Conheça Segurança Ofensiva

Perguntas Frequentes

Não. O nome engana. Prompt injection funciona porque o modelo não rastreia a origem do texto — ele infere autoridade pelo estilo. Texto que soa como reasoning interno é tratado como reasoning interno, mesmo vindo de um canal não-confiável. A vulnerabilidade está na arquitetura do modelo, não na qualidade do prompt.

Provavelmente sim. Se seu agente auto-ingere tool returns na memória de longo prazo sem marca de proveniência, um único input malicioso pode plantar um payload dormente que exfiltra dados em qualquer sessão futura. O ataque atinge 85-100% de ASR contra Gemini 3.1 Pro e GPT-5-mini e sobrevive a 100+ sessões benignas antes de ativar.

Reduz o sucesso de ataque de 61% para 10%, mas tem custo real. Remover marcadores estilísticos de reasoning também remove a capacidade do modelo de seguir raciocínio estruturado em produção. É um tradeoff, não uma solução gratuita. Segurança e utilidade são um eixo — escolher os dois no mesmo ponto é ignorar o problema.

Audite a memória persistente buscando instruções dormentes — texto que condiciona comportamento a tópicos específicos como finanças, saúde ou identidade. O problema é que a memória recuperada entra com a mesma autoridade que input do usuário, sem marca de origem. Sem taint tracking implementado, a detecção é essencialmente manual.

Não. As defesas mais eficazes contra Trojan Hippo reduzem ASR para 0-5%, mas o custo é restringir escrita na memória a input do usuário — o que remove a utilidade de tool returns. IFC policy bloqueia exfiltração, mas também bloqueia send_email legítimo. A posição honesta é aceitar o tradeoff e otimizar no eixo, não prometer os dois extremos.

Blog — Fale Conosco

Tem alguma pergunta sobre nossos artigos ou serviços? Nossa equipe está pronta para ajudar.

Agendar Reunião

Reserve um horário.

Agendar Agora

E-mail

Envie uma mensagem.

[email protected]

WhatsApp

Conversa rápida.

Endereço

Avenida Paulista, 1636 - São Paulo - SP - 01310-200

Especialista Tech86

Online agora

Olá! Como podemos ajudar a escalar seu negócio hoje?

Tech86 Engineering

Nós valorizamos sua privacidade

Utilizamos cookies e tecnologias similares para otimizar a sua experiência, analisar o tráfego do site e personalizar conteúdo. Ao clicar "Aceitar Todos", você concorda com o uso de todos os cookies. Leia nossa Política de Privacidade.