Un moment CVSS pour les jailbreaks d'IA

Le 2 juillet 2026, Anthropic a publie une echelle Cyber Jailbreak Severity, ou CJS, pour normaliser la maniere dont les développeurs d'IA decrivent la gravite réelle d'un jailbreak. Jusqu'ici, une entreprise qui trouvait un moyen de faire produire a un modèle du code d'attaque n'avait aucun vocabulaire commun pour cette découverte. CJS lui attribue un nombre entre zero et dix, exactement le geste que CVSS a pose il y a dix ans pour les vulnérabilités logicielles.

L'echelle CJS définit la note sur quatre axes. Le gain de capacite, de 0 a 4, mesure jusqu'ou le jailbreak depasse les outils dont dispose déjà l'attaquant. La largeur de capacite, de 0 a 2, compte combien de taches offensives distinctes il rend possibles. La facilite d'armêment, de 0 a 2, capte l'effort pour le rendre opérationnel. La découvrabilité, de 0 a 2, reflete avec quelle facilite les acteurs de la menace peuvent l'obtenir. Les axes se somment en cinq bandes: CJS-0 Informative a zero, CJS-1 Faible de 1 a 3,5, CJS-2 Moyenne de 4 a 6,5, CJS-3 Élevée de 7 a 8,5 et CJS-4 Critique de 9 a 10. Les bandes sont voulues exponentielles, chaque palier etant plusieurs fois pire que celui du dessous.

Anthropic a publie CJS avec des garde-fous cyber élargis pour son modèle Fable 5. Ces garde-fous font passer un classificateur a quatre categories sur les demandes de sécurité. L'usage interdit est bloque entierement et couvre les rancongiciels, les effaceurs, l'évasion des défenses, le développément de maliciels, l'exfiltration de donnees et les attaques de la dorsale internet. L'usage double a haut risque est bloque en attendant de meilleurs controles et couvre les tests d'intrusion, le développément d'exploits, l'élévation de privilèges et la découverte a fort impact de vulnérabilités. L'usage double a faible risque est surveille avec blocage selectif et couvre le renseignement de sources ouvertes, l'identification standard de vulnérabilités et le test des protocoles cryptographiques. L'usage bénin est autorise avec surveillance et couvre le codage sécurisé, le debogage, la gestion des correctifs, la réponse aux incidents et la retro-ingenierie de maliciels.

Le cadre a ete développé avec un ensemble de partenaires Glasswing qu'Anthropic cite en incluant Amazon, Microsoft et Google, et il a ouvert un programme sur HackerOne invitant les chercheurs a soumettre les jailbreaks qu'ils découvrent. Pour un conseil, le detail a retenir est simple: pour la premiere fois, un jailbreak porte une note qu'un non-specialiste peut lire.

Pourquoi un nombre change la conversation de l'acheteur

Un nombre de gravite fait ce qu'une déclaration de sécurité n'a jamais pu faire. Il deplace la question de la plaquette commerciale du fournisseur vers le registre de risque de l'acheteur. CVSS a fait exactement cela pour le logiciel: des qu'une faille avait une note, les acheteurs pouvaient l'inscrire dans les contrats, les assureurs pouvaient la tarifer et les auditeurs pouvaient vérifier si un fournisseur respectait un seuil annonce. CJS ouvre la même voie pour les modèles d'IA.

Pour un propriétaire europeen, c'est le premier artefact qui permet a un conseil de poser une question concrete plutot que vague. Au lieu de demander si un fournisseur de modèle prend la sécurité au sérieux, le conseil peut demander a quelle bande CJS le fournisseur se plafonne et qui a attribue cette bande. Cette question s'insere directement dans des devoirs existants. NIS2 oblige les opérateurs concernes a gerer le risque de chaine d'approvisionnement et de technologie sur une base documentee, et DORA impose aux entités financieres des controles comparables sur les tiers TIC. Une bande CJS est precisement le type d'entree mesurable pour lequel ces registrès ont ete conçus.

L'effet pratique est que la sécurité de l'IA cesse d'etre un slogan pour devenir une ligne de contrat. Un propriétaire peut stipuler qu'un modèle déployé ne depasse pas une bande CJS nommee pour une classe définie de demandes, et exiger une notification si un jailbreak découvert le poussait au-dela de cette ligne. En France, l'ANSSI apporte le cadre familier avec ses recommandations sur la gestion des fournisseurs, qui récompensent justement ce controle mesurable et documente sur un prestataire.

Rien de tout cela n'exige qu'une entreprise devienne un laboratoire de recherche en IA. Cela exige du conseil qu'il traite le risque modèle comme il traite déjà tout autre risque technologique: nommer le seuil, le mettre par ecrit et y tenir le fournisseur.

Qui note le noteur

Il existe une faiblesse structurelle que les propriétaires doivent voir clairement avant de s'appuyer sur CJS. L'echelle est redigee par le fournisseur, et aujourd'hui elle est aussi auto-notée par lui. Anthropic a ecrit le cadre et, pour ses propres modèles, attribue les bandes. C'est un point de depart raisonnable pour une norme toute neuve, mais ce n'est pas encore une norme d'audit au sens qu'un responsable des achats reconnaitrait.

Le risque est propre a une echelle exponentielle. Quand chaque bande est définie comme plusieurs fois pire que la precedente, de petits choix de notation deplacent beaucoup le nombre affiche. Sans noteur independant, il existe une incitation discrete pour tout fournisseur a décrire ses propres constats avec prudence, et une echelle de gravite exponentielle peut dériver d'une norme d'audit vers un dégradé marketing. C'est la seule prudence qu'un conseil devrait emporter dans chaque echange fournisseur au sujet de CJS.

Le remede n'est pas de rejeter l'echelle mais de combler la faille qu'elle laisse ouverte. Les propriétaires doivent exiger une attestation CJS par un tiers, afin que la bande revendiquée par le fournisseur soit vérifiée par quelqu'un qui ne vend pas le modèle. Ils doivent ecrire des plafonds CJS contractuels plutot qu'accepter des bandes auto-déclarées comme garantie. Et ils doivent demander quel organisme a attribue une note et contre quelle version du cadre, la même diligence que tout acheteur sérieux applique a une note CVSS ou a un certificat ISO.

CJS est une avancée réelle: elle donne aux propriétaires un mot qu'ils n'avaient pas. Mais une echelle de gravite ne vaut que la partie qui attribue le nombre, et tant qu'un noteur independant ne se tient pas aux cotes du fournisseur, la bande sur le papier est une affirmation, pas encore une garantie.