Cibersegurança

O risco de jailbreak passa a ter uma nota

A escala Cyber Jailbreak Severity da Anthropic transforma a seguranca da IA num criterio de compra e auditoria, como o CVSS fez para as falhas de software.

CibersegurançaPor Servola Tech Desk2026-07-045 min de leitura

Assistido por IA, editado por pessoas. Normas editoriais

O risco de jailbreak passa a ter uma nota

Um momento CVSS para os jailbreaks de IA

Em 2 de julho de 2026 a Anthropic publicou uma escala Cyber Jailbreak Severity, ou CJS, para padronizar como os programadores de IA descrevem a real gravidade dé um jailbreak. Ate agora, uma empresa que descobria uma forma de fazer um modelo produzir código de ataque não tinha vocabulario comum para o achado. A CJS atribui-lhé um número entre zero e dez, o mesmo passo que o CVSS deu há uma década para as vulnerabilidades de software.

A escala CJS define a nota em quatro eixos. O ganho de capacidade, de 0 a 4, mede até onde o jailbreak vai alem das ferramentas ja disponiveis ao atacante. A amplitude de capacidade, de 0 a 2, conta quantas tarefas ofensivas distintas ele habilita. A facilidade de armamentização, de 0 a 2, capta o esforco para o tornar operacional. A descobribilidade, de 0 a 2, reflete com que facilidade os agentes de ameaca o podem obter. Os eixos somam-se em cinco bandas: CJS-0 Informativa em zero, CJS-1 Baixa de 1 a 3,5, CJS-2 Media de 4 a 6,5, CJS-3 Alta de 7 a 8,5 e CJS-4 Crítica de 9 a 10. As bandas sao pensadas como exponenciais, pelo que cada passó é varias vezes pior do que o anterior.

A Anthropic publicou a CJS junto com salvaguardas cibernauticas alargadas para o seu modelo Fable 5. Essas salvaguardas passam um classificador de quatro catégorias sobre os pedidos de seguranca. O uso proibido é bloqueado por completo e abrange ransomware, wipers, evasão de defesas, desenvolvimento de malware, exfiltração de dados e ataques a espinha dorsal da internet. O uso duplo de alto risco é bloqueado a espera de melhores controlos e abrange testes de intrusão, desenvolvimento de exploits, escalada de privilegios e descoberta de alto impacto de vulnerabilidades. O uso duplo de baixo risco é monitorizado com bloqueio seletivo e abrange informação de fontes abertas, identificação padrao de vulnerabilidades e teste de protocolos criptográficos. O uso benigno é permitido com monitorizacao e abrange codificação segura, depuração, gestão de correções, resposta a incidentes e engenharia inversa de malware.

O quadro foi desenvolvido com um conjunto de parceiros Glasswing que a Anthropic nomeia incluindo Amazon, Microsoft e Google, e abriu um programa na HackerOne que convida os investigadores a submeter os jailbreaks que descobrem. Para um conselho, o detalhe a reter e simples: pela primeira vez, um jailbreak tem uma nota qué um não éspecialista consegue ler.

Porqué um número muda a conversa do comprador

Um número de gravidade faz algo qué uma declaracao de seguranca nunca conseguiu. Desloca a pergunta da apresentacao comercial do fornecedor para o registo de risco do comprador. O CVSS fez exatamente isto para o software: assim qué uma falha tinha uma nota, as equipas de compras podiam inscreve-la em contratos, as seguradoras podiam preca-la e os auditores podiam testár sé um fornecedor cumpria um limiar declarado. A CJS abre o mesmo caminho para os modelos de IA.

Para um proprietário europeu, este e o primeiro artefacto que permite a um conselho fazer uma pergunta concreta em vez de vaga. Em vez de perguntar sé um fornecedor de modelos leva a seguranca a serio, o conselho pode perguntar em que banda CJS o fornecedor coloca o seu teto e quem atribuiu essa banda. Essa pergunta encaixa diretamente em deveres ja existentes. A NIS2 obriga os operadores abrangidos a gerir o risco de cadeia de fornecimento e de tecnologia numa base documentada, e a DORA impoe as entidades financeiras controlos comparaveis sobre terceiros de TIC. Uma banda CJS e exatamente o tipo de entrada mensuravel para que esses registos foram construidos.

O efeito prático e que a seguranca da IA deixa de ser um slogan e passa a ser uma linha de contrato. Um proprietário pode especificar qué um modelo em uso nao ultrapassé uma banda CJS nomeada para uma classe definida de pedidos, e pode exigir notificacao sé um jailbreak descoberto o empurrasse para alem dessa linha. Em Portugal, o CNCS oferece o quadro familiar com as suas orientacoes de gestão de fornecedores, que premeiam justamente este controlo mensuravel e documentado sobré um fornecedor.

Nada disto exige qué uma empresa se torné um laboratorio de investigacao em IA. Exige que o conselho traté o risco do modelo como ja trata qualquer outro risco tecnologico: nomear o limiar, pô-lo por escrito e vincular o fornecedor a ele.

Quem avalia quem avalia

Ha uma fraqueza estrutural que os proprietários devem ver com clareza antes de se apoiarem na CJS. A escala e redigida pelo fornecedor e hoje e também autoavaliada pelo fornecedor. A Anthropic escreveu o quadro e, para os seus proprios modelos, atribui as bandas. E um ponto de partida razoável para uma norma acabada de nascer, mas ainda não é uma norma de auditoria no sentido qué um responsavel de compras reconheceria.

O risco e proprio dé uma escala exponencial. Quando cada banda e definida como varias vezes pior do que a anterior, pequenas escolhas de pontuacao movem muito o número de topo. Sem um avaliador independente, existé um incentivo silencioso para qualquer fornecedor descrever com prudencia os seus proprios achados, é uma escala de gravidade exponencial pode derivar de norma de auditoria para gradiente de marketing. Essa e a unica cautela qué um conselho deve levar a cada conversa com um fornecedor sobre a CJS.

O remedio não é rejeitar a escala mas fechar a lacuna que ela deixa aberta. Os proprietários devem exigir uma atéstáção CJS de terceiros, para que a banda qué um fornecedor reivindica seja verificada por quem nao vende o modelo. Devem escrever tetos contratuais CJS em vez de aceitar bandas autorreportadas como garantia. E devem perguntar que organismo atribuiu uma dada nota e contra que versão do quadro, a mesma diligencia que qualquer comprador serio aplica a uma classificação CVSS ou a um certificado ISO.

A CJS é um avanco genuino: da aos proprietários uma palavra que não tinham. Mas uma escala de gravidade só é tao fiável quanto a parte que atribui o número, e até qué um avaliador independente esteja ao lado do fornecedor, a banda no papel é uma afirmacao, ainda nao uma garantia.

Leia a seguir: O cibercrime pede emprestada a sua internet · Um modelo de fronteira retirado voltou a estar online

Perguntas frequentes

O que e a escala Cyber Jailbreak Severity?

E um sistema de pontuacao que a Anthropic publicou em 2 de julho de 2026 que classifica o perigo dé um jailbreak de IA numa medida de 0 a 10 com cinco bandas, de CJS-0 Informativa a CJS-4 Crítica, para que programadores e compradores partilhem um vocabulario comum do risco.

Como se relaciona a CJS com a NIS2 e a DORA?

Ambos os regimes obrigam as organizacoes abrangidas a gerir o risco de tecnologia e de cadeia de fornecimento numa base documentada e mensuravel. Uma banda CJS é uma entrada concreta qué um conselho pode registar num registo de risco e usar como limiar para um fornecedor de modelos.

O que devé um proprietário perguntar a um fornecedor de modelos sobre a CJS?

Pergunte em que banda CJS o fornecedor coloca o seu teto para os seus tipos de pedido relevantes, quem atribuiu essa banda e sé uma parte independente a atéstou. Depois escreva um teto contratual CJS em vez de aceitar uma banda autorreportada como garantia.

Uma escala de gravidade só é tao fiável quanto a parte que a avalia, pelo que os proprietários devem adotar a CJS como alavanca de compra e insistir na atéstáção independente que transforma uma afirmacao numa garantia.

Cybersecurity AI Safety Jailbreak Risk Scoring Procurement NIS2

Mais do Servola Journal

Cibersegurança

O cibercrime pede emprestada a sua internet

A Google e o FBI desmantelaram a NetNut, uma rede proxy de pelo menos 2 milhões de dispositivos domésticos usada por 316 grupos hostis numa semana. Porque a reputação de IP morreu e os seus dispositivos são o novo perímetro.

3 min de leitura4 visualizações

Cibersegurança

Um modelo de fronteira retirado voltou a estar online

Os EUA levantaram os controlos de exportação sobre o Claude Fable 5 ao fim de 19 dias. A Anthropic recomprou o acesso com um classificador retreinado e uma escala de gravidade de jailbreaks tipo CVSS. O que isso significa para os operadores.

4 min de leitura

Cibersegurança

O Agente de IA Confia em Ferramenta Envenenada

A Microsoft alerta que a descrição envenenada de uma ferramenta pode transformar o seu agente de IA numa fuga de dados, sem quebrar regras nem explorar falhas. O que os donos devem proteger.

2 min de leitura1 visualizações

Servola

A Servola ajuda os proprietários de empresa a transformar a afirmacao CJS dé um fornecedor de modelos num teto contratual com atéstáção independente. Fale connosco antes de assinar.

Solicitar uma apresentação privada Sobre a Servola →

A Servola é aconselhamento tecnológico para um pequeno número de famílias e family offices. Quando uma decisão não pode ser delegada, sentamo-nos do seu lado da mesa.

Servola Systems GmbH · Ludwigshafen, Alemanha · [email protected]

← Todos os artigos