Um momento CVSS para os jailbreaks de IA

Em 2 de julho de 2026 a Anthropic publicou uma escala Cyber Jailbreak Severity, ou CJS, para padronizar como os programadores de IA descrevem a real gravidade dé um jailbreak. Ate agora, uma empresa que descobria uma forma de fazer um modelo produzir código de ataque não tinha vocabulario comum para o achado. A CJS atribui-lhé um número entre zero e dez, o mesmo passo que o CVSS deu há uma década para as vulnerabilidades de software.

A escala CJS define a nota em quatro eixos. O ganho de capacidade, de 0 a 4, mede até onde o jailbreak vai alem das ferramentas ja disponiveis ao atacante. A amplitude de capacidade, de 0 a 2, conta quantas tarefas ofensivas distintas ele habilita. A facilidade de armamentização, de 0 a 2, capta o esforco para o tornar operacional. A descobribilidade, de 0 a 2, reflete com que facilidade os agentes de ameaca o podem obter. Os eixos somam-se em cinco bandas: CJS-0 Informativa em zero, CJS-1 Baixa de 1 a 3,5, CJS-2 Media de 4 a 6,5, CJS-3 Alta de 7 a 8,5 e CJS-4 Crítica de 9 a 10. As bandas sao pensadas como exponenciais, pelo que cada passó é varias vezes pior do que o anterior.

A Anthropic publicou a CJS junto com salvaguardas cibernauticas alargadas para o seu modelo Fable 5. Essas salvaguardas passam um classificador de quatro catégorias sobre os pedidos de seguranca. O uso proibido é bloqueado por completo e abrange ransomware, wipers, evasão de defesas, desenvolvimento de malware, exfiltração de dados e ataques a espinha dorsal da internet. O uso duplo de alto risco é bloqueado a espera de melhores controlos e abrange testes de intrusão, desenvolvimento de exploits, escalada de privilegios e descoberta de alto impacto de vulnerabilidades. O uso duplo de baixo risco é monitorizado com bloqueio seletivo e abrange informação de fontes abertas, identificação padrao de vulnerabilidades e teste de protocolos criptográficos. O uso benigno é permitido com monitorizacao e abrange codificação segura, depuração, gestão de correções, resposta a incidentes e engenharia inversa de malware.

O quadro foi desenvolvido com um conjunto de parceiros Glasswing que a Anthropic nomeia incluindo Amazon, Microsoft e Google, e abriu um programa na HackerOne que convida os investigadores a submeter os jailbreaks que descobrem. Para um conselho, o detalhe a reter e simples: pela primeira vez, um jailbreak tem uma nota qué um não éspecialista consegue ler.

Porqué um número muda a conversa do comprador

Um número de gravidade faz algo qué uma declaracao de seguranca nunca conseguiu. Desloca a pergunta da apresentacao comercial do fornecedor para o registo de risco do comprador. O CVSS fez exatamente isto para o software: assim qué uma falha tinha uma nota, as equipas de compras podiam inscreve-la em contratos, as seguradoras podiam preca-la e os auditores podiam testár sé um fornecedor cumpria um limiar declarado. A CJS abre o mesmo caminho para os modelos de IA.

Para um proprietário europeu, este e o primeiro artefacto que permite a um conselho fazer uma pergunta concreta em vez de vaga. Em vez de perguntar sé um fornecedor de modelos leva a seguranca a serio, o conselho pode perguntar em que banda CJS o fornecedor coloca o seu teto e quem atribuiu essa banda. Essa pergunta encaixa diretamente em deveres ja existentes. A NIS2 obriga os operadores abrangidos a gerir o risco de cadeia de fornecimento e de tecnologia numa base documentada, e a DORA impoe as entidades financeiras controlos comparaveis sobre terceiros de TIC. Uma banda CJS e exatamente o tipo de entrada mensuravel para que esses registos foram construidos.

O efeito prático e que a seguranca da IA deixa de ser um slogan e passa a ser uma linha de contrato. Um proprietário pode especificar qué um modelo em uso nao ultrapassé uma banda CJS nomeada para uma classe definida de pedidos, e pode exigir notificacao sé um jailbreak descoberto o empurrasse para alem dessa linha. Em Portugal, o CNCS oferece o quadro familiar com as suas orientacoes de gestão de fornecedores, que premeiam justamente este controlo mensuravel e documentado sobré um fornecedor.

Nada disto exige qué uma empresa se torné um laboratorio de investigacao em IA. Exige que o conselho traté o risco do modelo como ja trata qualquer outro risco tecnologico: nomear o limiar, pô-lo por escrito e vincular o fornecedor a ele.

Quem avalia quem avalia

Ha uma fraqueza estrutural que os proprietários devem ver com clareza antes de se apoiarem na CJS. A escala e redigida pelo fornecedor e hoje e também autoavaliada pelo fornecedor. A Anthropic escreveu o quadro e, para os seus proprios modelos, atribui as bandas. E um ponto de partida razoável para uma norma acabada de nascer, mas ainda não é uma norma de auditoria no sentido qué um responsavel de compras reconheceria.

O risco e proprio dé uma escala exponencial. Quando cada banda e definida como varias vezes pior do que a anterior, pequenas escolhas de pontuacao movem muito o número de topo. Sem um avaliador independente, existé um incentivo silencioso para qualquer fornecedor descrever com prudencia os seus proprios achados, é uma escala de gravidade exponencial pode derivar de norma de auditoria para gradiente de marketing. Essa e a unica cautela qué um conselho deve levar a cada conversa com um fornecedor sobre a CJS.

O remedio não é rejeitar a escala mas fechar a lacuna que ela deixa aberta. Os proprietários devem exigir uma atéstáção CJS de terceiros, para que a banda qué um fornecedor reivindica seja verificada por quem nao vende o modelo. Devem escrever tetos contratuais CJS em vez de aceitar bandas autorreportadas como garantia. E devem perguntar que organismo atribuiu uma dada nota e contra que versão do quadro, a mesma diligencia que qualquer comprador serio aplica a uma classificação CVSS ou a um certificado ISO.

A CJS é um avanco genuino: da aos proprietários uma palavra que não tinham. Mas uma escala de gravidade só é tao fiável quanto a parte que atribui o número, e até qué um avaliador independente esteja ao lado do fornecedor, a banda no papel é uma afirmacao, ainda nao uma garantia.