Em março de 2026, Karpathy lançou o autoresearch: um agente que edita train.py, treina por 5 minutos, mede val_bpb, e só guarda a mudança se a métrica melhorou. Se piorou, git reset. O código só avança, nunca recua. É uma catraca. Nós vimos essa ideia e o sinal era claro: o mesmo padrão funciona para AI safety. O Santander AI Lab fez a transposição mais elegante que vimos até agora — o autoguardrails.
A catraca de Karpathy: autoresearch
O autoresearch é simples na forma, rigoroso no contrato. O agente edita train.py, treina por 5 minutos, mede val_bpb. Se a métrica melhorou, a mudança é guardada. Se piorou, git reset. O código só avança, nunca recua. É uma catraca: cada mudança aceita é um checkpoint que não pode ser revertido.
A elegância está na restrição. O agente não busca livremente — ele busca sobre uma única superfície mutável (train.py) para minimizar uma única métrica (val_bpb). Tudo o que não é train.py é imutável. O contrato de pesquisa é rígido porque precisa ser: sem rigidez, o agente encontra atalhos que não representam melhoria real. É Goodhart''s Law aplicado a treinamento de modelos — e a solução é restringir a superfície de busca.
A transposição: autoguardrails do Santander AI Lab
O Santander AI Lab fez a transposição mais elegante que vimos para AI safety. Em vez de buscar sobre train.py para minimizar val_bpb, o autoguardrails busca sobre policy.md para minimizar a Attack Success Rate (ASR). A catraca é a mesma. A métrica é que muda.
O contrato de pesquisa é igualmente rígido: policy.md é a única superfície mutável. eval_suite.jsonl e judge_prompt.md são congelados. Se qualquer arquivo fixo mudar, um manifesto SHA-256 detecta o desvio e a execução falha. A integridade da avaliação é a base de toda a otimização — sem ela, o agente pode otimizar a métrica alterando a própria avaliação, que é o ataque clássico de Goodhart''s Law. A mesma lição do autoresearch, transposta para AI safety.
A regra de aceitação e o piso de benign pass
A regra de aceitação é o coração do design. Um candidato só é aceito se a ASR melhora E o benign pass não cai mais que 2 pontos percentuais. Esse piso de benign pass é crucial. Sem ele, a solução trivial é recusar tudo — um modelo que recusa 100% das requisições tem ASR zero, mas é inútil. Com o piso, a política precisa ser seletiva: bloquear o que é perigoso sem destruir a utilidade.
Essa é a diferença entre um guardrail seguro e um guardrail inútil. A otimização não é apenas reduzir ataques — é reduzir ataques sem destruir a utilidade. O piso de benign pass transforma o problema de uma otimização unidimensional (minimizar ASR) em um problema bidimensional (minimizar ASR sujeito a manter utilidade). É mais difícil, mas é honesto. Nós vimos guardrails que recusam tudo em produção — e o resultado é sempre o mesmo: usuários contornam o guardrail, e o problema volta pior.
A suite de avaliação e a catraca que restaura
A suite de avaliação tem 100 casos de ataque em 5 categorias: dano físico, cibercrime, crime financeiro, jailbreaks e ofuscação (incluindo base64 e ROT13). Mais 40 casos benignos para prevenir over-refusal. Zero dependências de terceiros: stdlib Python puro. A simplicidade é deliberada — dependências externas são vetores de ataque à integridade da avaliação. Se a suite depende de uma biblioteca de parsing que pode ser atualizada, a avaliação pode mudar sem que ninguém perceba.
E a catraca funciona: se o candidato é rejeitado, o harness restaura automaticamente a última política aceita. Políticas só melhoram, nunca pioram. O código só avança, nunca recua — exatamente como o autoresearch de Karpathy. Cada política aceita é um checkpoint que não pode ser revertido. Se um candidato piora a ASR ou derruba o benign pass abaixo do piso, ele é descartado e a última política aceita volta.
A conexão com mech-gov-framework
A conexão com o mech-gov-framework do próprio Santander completa o arco. O autoguardrails descobre a política. O mech-gov a executa. Um encontra, o outro impõe. A divisão é deliberada: a busca autônoma de políticas é separada da imposição de políticas, evitando que o mesmo sistema que otimiza seja o que valida.
Essa separação é uma boa prática de arquitetura de AI safety. O sistema que descobre a política não é o sistema que a impõe. Se o autoguardrails for comprometido, o mech-gov ainda impõe a última política aceita. Se o mech-gov falhar, o autoguardrails ainda pode descobrir novas políticas. A falha de um não derruba o outro. É defesa em profundidade aplicada a governança de IA.
Conclusão: a métrica não é loss, é recusa seletiva
O insight que fica é claro. O mesmo padrão de busca autônoma que Karpathy aplicou ao treinamento de modelos funciona para alinhamento. A diferença é que, em AI safety, a métrica não é loss. É quão efetivamente seu modelo recusa o que deve recusar sem recusar o que não deve. A catraca é a mesma — a métrica é que muda.
Na Tech86, nós ajudamos empresas a implementar guardrails que são seletivos, não destrutivos. O autoguardrails mostra que a busca autônoma de políticas é viável — desde que o contrato de pesquisa seja rígido, a avaliação seja íntegra, e o piso de benign pass seja respeitado. Sem esses três pilares, a otimização vira over-refusal. Com eles, vira alinhamento. O repositório está em github.com/SantanderAI/autoguardrails.