Un momento CVSS per i jailbreak dell'IA

Il 2 luglio 2026 Anthropic ha pubblicato una scala Cyber Jailbreak Severity, o CJS, per standardizzare il modo in cui gli sviluppatori di IA descrivono quanto sia grave davvero un jailbreak. Finora un'azienda che scopriva un modo per far produrre a un modello codice d'attacco non aveva un vocabolario comune per la scoperta. CJS le assegna un numero tra zero e dieci, la stessa mossa che CVSS fecè un decennio fa per le vulnerabilita software.

La scala CJS definisce il punteggio su quattro assi. Il guadagno di capacità, da 0 a 4, misura quanto il jailbreak si spinge oltre gli strumenti già in mano all'attaccante. L'ampiezza della capacità, da 0 a 2, conta quanti compiti offensivi distinti abilita. La facilità di armamento, da 0 a 2, coglie lo sforzo per renderlo operativo. La reperibilità, da 0 a 2, riflette con quanta facilità gli attori delle minacce possono ottenerlo. Gli assi si sommano in cinque bande: CJS-0 Informativa a zero, CJS-1 Bassa da 1 a 3,5, CJS-2 Media da 4 a 6,5, CJS-3 Alta da 7 a 8,5 e CJS-4 Critica da 9 a 10. Le bande sono pensate come esponenziali, quindi ogni passo e diverse volte peggiore di quello sotto.

Anthropic ha pubblicato CJS insieme a salvaguardie cyber ampliate per il suo modello Fable 5. Tali salvaguardie fanno passarè un classificatore a quattro categorie sulle richieste di sicurezza. L'uso proibito è bloccato del tutto e comprende ransomware, wiper, evasione delle difese, sviluppo di malware, esfiltrazione di dati e attacchi alla dorsale di internet. L'uso duale ad alto rischio è bloccato in attesa di controlli migliori e comprende penetration test, sviluppo di exploit, escalation di privilegi e individuazione ad alto impatto di vulnerabilita. L'uso duale a basso rischio è monitorato con blocco selettivo e comprende intelligence da fonti aperte, identificazione standard delle vulnerabilita e test dei protocolli crittografici. L'uso benigno è consentito con monitoraggio e comprende codifica sicura, debugging, gestione delle patch, risposta agli incidenti e reverse engineering del malware.

Il quadro e stato sviluppato con un gruppo di partner Glasswing che Anthropic indica includendo Amazon, Microsoft e Google, e ha aperto un programma su HackerOne che invita i ricercatori a inviare i jailbreak che scoprono. Per un consiglio il dettaglio da trattenere e semplice: per la prima volta un jailbreak ha un voto che anchè un non addetto ai lavori può leggere.

Perchè un numero cambia il discorso dell'acquirente

Un numero di gravità fa qualcosa chè una dichiarazione di sicurezza non ha mai potuto. Sposta la domanda dalla presentazione commerciale del fornitore al registro di rischio dell'acquirente. CVSS fece esattamente questo per il software: appena un bug aveva un voto, gli uffici acquisti potevano scriverlo nei contratti, gli assicuratori potevano prezzarlo e gli auditor potevano verificare sè un fornitore rispettava una soglia dichiarata. CJS apre la stessa strada per i modelli di IA.

Per un titolare europeo, questo e il primo artefatto che permette a un consiglio di porrè una domanda concreta invece che vaga. Anziche chiedere sè un fornitore di modelli prende sul serio la sicurezza, il consiglio può chiedere a quale banda CJS il fornitore si ferma e chi ha assegnato quella banda. La domanda si inserisce direttamente in doveri già esistenti. NIS2 impone agli operatori interessati di gestire il rischio di catena di fornitura e di tecnologià su base documentata, e DORA impone alle entità finanziarie controlli comparabili sui terzi ICT. Una banda CJS e proprio il tipo di input misurabile per cui quei registri sono stati costruiti.

L'effetto pratico e che la sicurezza dell'IA smette di esserè uno slogan e diventa una voce di contratto. Un titolare può specificare chè un modello in uso non superi una banda CJS indicata per una classe definita di richieste, e imporrè una notifica sè un jailbreak scoperto lo spingerebbe oltre quella linea. In Italia l'ACN offre il quadro familiare con le sue indicazioni sulla gestione dei fornitori, che premiano proprio questo controllo misurabile e documentato su un fornitore.

Nulla di tutto ciò richiede a un'azienda di diventarè un laboratorio di ricerca sull'IA. Richiede al consiglio di trattare il rischio del modello come già tratta ogni altro rischio tecnologico: nominare la soglia, metterla per iscritto e vincolarvi il fornitore.

Chi valuta il valutatore

C'è una debolezza strutturale che i titolari devono vedere con chiarezza prima di affidarsi a CJS. La scala è scritta dal fornitore e oggi e anche autovalutata dal fornitore. Anthropic ha scritto il quadro e, per i propri modelli, assegna le bande. E un punto di partenza ragionevole per uno standard nuovissimo, ma non è ancora uno standard di audit nel senso chè un responsabile acquisti riconoscerebbe.

Il rischio e proprio di una scala esponenziale. Quando ogni banda e definita come diverse volte peggiore della precedente, piccole scelte di punteggio spostano molto il numero di testa. Senza un valutatore indipendente c'è un incentivo silenzioso per ogni fornitore a descrivere con prudenza i propri risultati, è una scala di gravità esponenziale può scivolare da standard di audit a gradiente di marketing. E questa l'unica cautela chè un consiglio dovrebbe portare in ogni confronto con un fornitore su CJS.

Il rimedio non è respingere la scala ma chiudere il varco che lascia aperto. I titolari devono esigerè un'attestazione CJS di terza parte, così che la banda dichiarata dal fornitore sia verificata da chi non vende il modello. Devono scrivere tetti contrattuali CJS anziche accettare bande autodichiarate come garanzia. E devono chiedere quale organismo ha assegnato un dato voto e contro quale versione del quadro, la stessa diligenza che ogni acquirente serio applica a una valutazione CVSS o a un certificato ISO.

CJS è un progresso genuino: da ai titolari una parola che non avevano. Ma una scala di gravità è affidabile solo quanto la parte che assegna il numero, e finchè un valutatore indipendente non si affianca al fornitore, la banda sulla carta è un'affermazione, non ancora una garanzia.