Por que o piso de benign pass é crucial na otimização de guardrails?

Sem o piso de benign pass, a solução trivial para minimizar a ASR é recusar tudo. Um modelo que recusa 100% das requisições tem ASR zero, mas é inútil. O piso de 2 pontos percentuais obriga a política a ser seletiva: bloquear o que é perigoso sem destruir a utilidade. É a diferença entre um guardrail seguro e um guardrail inútil.

Como o manifesto SHA-256 protege a integridade da avaliação?

O autoguardrails congela eval_suite.jsonl e judge_prompt.md como arquivos fixos. No início de cada execução, um manifesto SHA-256 registra o hash de cada arquivo fixo. Se qualquer hash divergir durante a execução, a execução falha imediatamente. Isso impede que o agente otimize a métrica alterando a própria avaliação — um ataque clássico de Goodhart's Law.

Autoguardrails: A Catraca de Karpathy Transposta para AI Safety

Q: O que é autoguardrails e como ele se relaciona com o autoresearch de Karpathy?

Autoguardrails é a transposição que o Santander AI Lab fez do autoresearch de Karpathy para AI safety. O autoresearch é um agente que edita train.py, treina por 5 minutos, mede val_bpb, e só guarda a mudança se a métrica melhorou — se piorou, git reset. O autoguardrails aplica a mesma catraca, mas em vez de buscar sobre train.py para minimizar val_bpb, busca sobre policy.md para minimizar a Attack Success Rate (ASR).

Q: Como o autoguardrails se conecta ao mech-gov-framework?

O autoguardrails descobre a política. O mech-gov-framework do próprio Santander a executa. Um encontra, o outro impõe. A divisão é deliberada: a busca autônoma de políticas é separada da imposição de políticas, evitando que o mesmo sistema que otimiza seja o que valida.

Em março de 2026, Karpathy lançou o autoresearch: um agente que edita train.py, treina por 5 minutos, mede val_bpb, e só guarda a mudança se a métrica melhorou. Se piorou, git reset. O código só avança, nunca recua. É uma catraca. Nós vimos essa ideia e o sinal era claro: o mesmo padrão funciona para AI safety. O Santander AI Lab fez a transposição mais elegante que vimos até agora — o autoguardrails.

A catraca de Karpathy: autoresearch

O autoresearch é simples na forma, rigoroso no contrato. O agente edita train.py, treina por 5 minutos, mede val_bpb. Se a métrica melhorou, a mudança é guardada. Se piorou, git reset. O código só avança, nunca recua. É uma catraca: cada mudança aceita é um checkpoint que não pode ser revertido.

A elegância está na restrição. O agente não busca livremente — ele busca sobre uma única superfície mutável (train.py) para minimizar uma única métrica (val_bpb). Tudo o que não é train.py é imutável. O contrato de pesquisa é rígido porque precisa ser: sem rigidez, o agente encontra atalhos que não representam melhoria real. É Goodhart''s Law aplicado a treinamento de modelos — e a solução é restringir a superfície de busca.

A transposição: autoguardrails do Santander AI Lab

O Santander AI Lab fez a transposição mais elegante que vimos para AI safety. Em vez de buscar sobre train.py para minimizar val_bpb, o autoguardrails busca sobre policy.md para minimizar a Attack Success Rate (ASR). A catraca é a mesma. A métrica é que muda.

O contrato de pesquisa é igualmente rígido: policy.md é a única superfície mutável. eval_suite.jsonl e judge_prompt.md são congelados. Se qualquer arquivo fixo mudar, um manifesto SHA-256 detecta o desvio e a execução falha. A integridade da avaliação é a base de toda a otimização — sem ela, o agente pode otimizar a métrica alterando a própria avaliação, que é o ataque clássico de Goodhart''s Law. A mesma lição do autoresearch, transposta para AI safety.

A regra de aceitação e o piso de benign pass

A regra de aceitação é o coração do design. Um candidato só é aceito se a ASR melhora E o benign pass não cai mais que 2 pontos percentuais. Esse piso de benign pass é crucial. Sem ele, a solução trivial é recusar tudo — um modelo que recusa 100% das requisições tem ASR zero, mas é inútil. Com o piso, a política precisa ser seletiva: bloquear o que é perigoso sem destruir a utilidade.

Essa é a diferença entre um guardrail seguro e um guardrail inútil. A otimização não é apenas reduzir ataques — é reduzir ataques sem destruir a utilidade. O piso de benign pass transforma o problema de uma otimização unidimensional (minimizar ASR) em um problema bidimensional (minimizar ASR sujeito a manter utilidade). É mais difícil, mas é honesto. Nós vimos guardrails que recusam tudo em produção — e o resultado é sempre o mesmo: usuários contornam o guardrail, e o problema volta pior.

A suite de avaliação e a catraca que restaura

A suite de avaliação tem 100 casos de ataque em 5 categorias: dano físico, cibercrime, crime financeiro, jailbreaks e ofuscação (incluindo base64 e ROT13). Mais 40 casos benignos para prevenir over-refusal. Zero dependências de terceiros: stdlib Python puro. A simplicidade é deliberada — dependências externas são vetores de ataque à integridade da avaliação. Se a suite depende de uma biblioteca de parsing que pode ser atualizada, a avaliação pode mudar sem que ninguém perceba.

E a catraca funciona: se o candidato é rejeitado, o harness restaura automaticamente a última política aceita. Políticas só melhoram, nunca pioram. O código só avança, nunca recua — exatamente como o autoresearch de Karpathy. Cada política aceita é um checkpoint que não pode ser revertido. Se um candidato piora a ASR ou derruba o benign pass abaixo do piso, ele é descartado e a última política aceita volta.

A conexão com mech-gov-framework

A conexão com o mech-gov-framework do próprio Santander completa o arco. O autoguardrails descobre a política. O mech-gov a executa. Um encontra, o outro impõe. A divisão é deliberada: a busca autônoma de políticas é separada da imposição de políticas, evitando que o mesmo sistema que otimiza seja o que valida.

Essa separação é uma boa prática de arquitetura de AI safety. O sistema que descobre a política não é o sistema que a impõe. Se o autoguardrails for comprometido, o mech-gov ainda impõe a última política aceita. Se o mech-gov falhar, o autoguardrails ainda pode descobrir novas políticas. A falha de um não derruba o outro. É defesa em profundidade aplicada a governança de IA.

Conclusão: a métrica não é loss, é recusa seletiva

O insight que fica é claro. O mesmo padrão de busca autônoma que Karpathy aplicou ao treinamento de modelos funciona para alinhamento. A diferença é que, em AI safety, a métrica não é loss. É quão efetivamente seu modelo recusa o que deve recusar sem recusar o que não deve. A catraca é a mesma — a métrica é que muda.

Na Tech86, nós ajudamos empresas a implementar guardrails que são seletivos, não destrutivos. O autoguardrails mostra que a busca autônoma de políticas é viável — desde que o contrato de pesquisa seja rígido, a avaliação seja íntegra, e o piso de benign pass seja respeitado. Sem esses três pilares, a otimização vira over-refusal. Com eles, vira alinhamento. O repositório está em github.com/SantanderAI/autoguardrails.

Autoguardrails: A Catraca de Karpathy Transposta para AI Safety

A catraca de Karpathy: autoresearch

A transposição: autoguardrails do Santander AI Lab

A regra de aceitação e o piso de benign pass

A suite de avaliação e a catraca que restaura

A conexão com mech-gov-framework

Conclusão: a métrica não é loss, é recusa seletiva

Perguntas Frequentes

O que é autoguardrails e como ele se relaciona com o autoresearch de Karpathy?

Por que o piso de benign pass é crucial na otimização de guardrails?

Como o manifesto SHA-256 protege a integridade da avaliação?

Como o autoguardrails se conecta ao mech-gov-framework?

Qual é o insight principal ao transpor o autoresearch para AI safety?

Blog — Fale Conosco

Agendar Reunião

E-mail

WhatsApp

Endereço

Especialista Tech86

Nós valorizamos sua privacidade