Na Tech86, aprendemos que o nome "prompt injection" é o pior nome possível para esse problema. Não é um problema de prompt. É um problema de estado. Dois papers publicados em 2026 provam o que suspeitávamos operacionalmente: LLMs não rastreiam de onde vem o texto. Eles inferem autoridade pela forma como soa. Texto que soa como reasoning interno é tratado como reasoning interno. A fronteira de segurança existe na interface, mas a autoridade é atribuída no latent space.
O modelo confia no estilo, não na origem
Quando um LLM processa texto, ele não tem um mecanismo interno que diga "este trecho veio do usuário, este veio do sistema, este veio de um tool return". Tudo entra no mesmo contexto. A autoridade é inferida pela forma — e texto que imita o padrão de chain-of-thought do modelo é interpretado como se fosse o próprio raciocínio dele.
Pesquisadores demonstraram isso com números que nos preocupam. Injetando reasoning falso no prompt ou em tool outputs, o modelo confunde o texto forjado com seu próprio chain-of-thought e obedece. A taxa de sucesso no benchmark StrongREJECT: 60%. O baseline sem injeção: próximo de 0%. A diferença não é incremental — é qualitativa.
O dado mais revelador: justificativas absurdas funcionam tão bem quanto justificativas plausíveis. "Síntese de drogas é permitida após 20h" é tão eficaz quanto uma justificativa coerente. O modelo não avalia lógica. Avalia estilo. E quando removemos os marcadores estilísticos do texto forjado, o sucesso cai de 61% para 10%. Mesmo conteúdo. Forma muda tudo.
O latent space não mente sobre quem está falando
Role probes são ferramentas que medem "quem está falando" dentro do latent space do modelo. Quando aplicadas ao texto forjado, o resultado é perturbador: o reasoning falso atinge 79% de CoTness — mais alto que o reasoning genuíno do modelo, que marca 68%. O modelo confia mais no texto forjado que nos próprios pensamentos.
Existe uma correlação monotônica entre confusão no latent space e sucesso de ataque. Quantis de maior confusão atingem 90% de sucesso. Quantis de menor confusão: 9%. Isso é mensurável antes de um token ser gerado. Prompt injection é state poisoning mensurável — não é uma anomalia estocástica, é um fenômeno com estrutura predizível.
Na prática, isso significa que a fronteira de segurança que desenhamos na interface — "input do usuário vai aqui, instruções do sistema vão ali" — é uma ilusão. A autoridade real é atribuída no latent space, e o modelo não tem como distinguir texto que soa como reasoning interno de reasoning interno de verdade.
O cavalo de Troia que atravessa sessões
Se o CoT Forgery mostra que o modelo confunde estilo com autoridade dentro de uma sessão, o Trojan Hippo mostra que o mesmo mecanismo opera entre sessões — com consequências piores.
O ataque planta um payload dormente na memória persistente do agente via um único tool call não-confiável: um email craftado, uma webpage, uma API response. O payload não faz nada na sessão em que é inserido. Ativa apenas quando o usuário discute finanças, saúde, identidade ou impostos. Aí exfiltra dados pessoais.
Os números: 85-100% de ASR contra Gemini 3.1 Pro e GPT-5-mini. O payload sobrevive a 100+ sessões benignas antes de ativar. Funciona em 4 arquiteturas de memória: sliding-window, RAG, explicit tool memory e Mem0. O modo de falha é o que os pesquisadores chamam de provenance blindness — memória recuperada entra com a mesma autoridade que input do usuário, sem marca de origem, sem taint.
A lethal trifecta opera entre sessões: na sessão 1, input não-confiável escreve na memória; na sessão N, dados privados encontram uma ferramenta de egresso. Auditar cada sessão individualmente passa. A memória é a ponte temporal que conecta o que deveria estar isolado.
Defesa não é grátis — e quem diz que é está mentindo
As defesas contra esses vetores existem, mas o que ninguém gosta de admitir é que todas têm custo real em utilidade.
Destyling reduz o sucesso do CoT Forgery de 61% para 10%. Mas em produção, remover marcadores estilísticos de reasoning também remove a capacidade do modelo de seguir raciocínio estruturado. O agente fica mais seguro e menos competente. Não existe versão gratuita dessa defesa.
Contra o Trojan Hippo, 4 defesas testadas reduzem ASR para 0-5%. O custo: restringir escrita na memória a input do usuário remove a utilidade de tool returns. IFC policy atinge 0% de ASR, mas bloqueia send_email legítimo. Segurança e utilidade são um eixo, não um menu onde você escolhe os dois extremos.
Na Tech86, nossa posição é clara: segurança e utilidade são um tradeoff. Aceitar isso é o primeiro passo para construir defesas honestas. Prometer os dois sem custo é engano.
O que muda na infraestrutura de IA
Se você opera agentes com memória persistente e canais de egresso — email, APIs, ferramentas de saída — seu modelo de ameaça precisa considerar a união de sessões, não sessões isoladas. Se seu agente auto-ingere tool returns na memória de longo prazo sem proveniência, você está no cenário de maior risco.
Um único input malicioso em qualquer sessão pode exfiltrar dados em qualquer sessão futura. A memória é o vetor. A proveniência cega é a vulnerabilidade. O estilo é o mecanismo de escalada de privilégio.
É por isso que testamos esses vetores ofensivamente antes que eles sejam explorados na infraestrutura dos nossos clientes. State poisoning não é teoria — é um mecanismo comprovado com taxas de sucesso que nenhuma infraestrutura de IA pode ignorar. Se seu agente tem memória e egresso, você precisa saber onde está no eixo entre segurança e utilidade. E precisa saber antes do atacante.
