Et CVSS-øjeblik for AI-jailbreaks
Den 2. juli 2026 udgav Anthropic en Cyber Jailbreak Severity-skala, kort CJS, for at standardisere, hvordan AI-udviklere beskriver, hvor slemt et jailbreak faktisk er. Hidtil havde en virksomhed, der fandt en måde at faa en model til at producere angrebskode, intet faelles ordforraad for fundet. CJS giver fundet et tal mellem nul og ti, praecis det skridt CVSS tog for et årti siden for softwaresårbarheder.
CJS-skalaen definerer scoren over fire akser. Kapacitetsgevinst, fra 0 til 4, måler hvor langt jailbreaket når ud over angriberens eksisterende værktøjer. Bredde af kapacitet, fra 0 til 2, taeller hvor mange forskellige offensive opgaver det muliggør. Lethed ved våbengørelse, fra 0 til 2, fanger indsatsen for at gøre det operationelt. Opdagelighed, fra 0 til 2, afspejler hvor let trusselsaktoerer kan skaffe det. Akserne laegges sammen til fem baand: CJS-0 Informativ ved nul, CJS-1 Lav fra 1 til 3,5, CJS-2 Mellem fra 4 til 6,5, CJS-3 Høj fra 7 til 8,5 og CJS-4 Kritisk fra 9 til 10. Baandene er tiltaenkt eksponentielle, saa hvert trin er flere gange værre end det under.
Anthropic udgav CJS sammen med udvidede cybersikringer for sin model Fable 5. Disse sikringer koerer en klassifikator med fire kategorier over sikkerhedsanmodninger. Forbudt brug blokeres helt og omfatter ransomware, wipere, undgaaelse af forsvar, malwareudvikling, dataeksfiltrering og angreb på internettets rygrad. Højrisiko dobbeltbrug blokeres i afventning af bedre kontroller og omfatter penetrationstest, exploitudvikling, privilegieeskalering og højimpact-fund af sårbarheder. Lavrisiko dobbeltbrug overvaages med selektiv blokering og omfatter åbenkilde-efterretning, standard sårbarhedsidentifikation og test af kryptografiske protokoller. Godartet brug tillades med overvaagning og omfatter sikker kodning, fejlfinding, patchhaandtering, haendelsesrespons og reverse engineering af malware.
Rammen blev udviklet med en række Glasswing-partnere, som Anthropic nævner inklusive Amazon, Microsoft og Google, og den åbnede et HackerOne-program, der inviterer forskere til at indsende jailbreaks, de opdager. For en bestyrelse er detaljen vaerd at holde fast i enkel: for første gang har et jailbreak en karakter, som en ikke-specialist kan laese.
Hvorfor et tal aendrer køberens samtale
Et alvorstal gør noget, en sikkerhedserklaering aldrig kunne. Det flytter spoergsmålet fra leverandoerens salgsmateriale til køberens risikoregister. CVSS gjorde praecis dette for software: saa snart en fejl havde en score, kunne indkoebsteams skrive den ind i kontrakter, forsikringsselskaber kunne prissaette den, og revisorer kunne teste, om en leverandoer naaede en anført taerskel. CJS aabner den samme vej for AI-modeller.
For en europaeisk ejer er dette det første artefakt, der lader en bestyrelse stille et konkret i stedet for et vagt spoergsmål. I stedet for at spoerge, om en modelleverandoer tager sikkerhed alvorligt, kan bestyrelsen spoerge, hvilket CJS-baand leverandoeren saetter loft ved, og hvem der tildelte det baand. Det spoergsmål passer direkte ind i eksisterende pligter. NIS2 kraever, at omfattede operatoerer styrer forsynings- og teknologirisiko på et dokumenteret grundlag, og DORA pålaegger finansielle enheder sammenlignelige kontroller over IKT-tredjeparter. Et CJS-baand er netop den slags målbare input, disse registre blev bygget til.
Den praktiske virkning er, at AI-sikkerhed holder op med at være et slogan og bliver en kontraktlinje. En ejer kan angive, at en anvendt model ikke maa overstige et navngivet CJS-baand for en defineret klasse af anmodninger, og kan kraeve underretning, hvis et opdaget jailbreak ville skubbe den forbi den linje. I Danmark leverer CERT-miljoeet den velkendte ramme, og for finansielle enheder binder DORA kravet, der belonner netop denne målbare, dokumenterede kontrol over en leverandoer.
Intet af dette kraever, at en virksomhed bliver et AI-forskningslaboratorium. Det kraever, at bestyrelsen behandler modelrisiko, som den allerede behandler enhver anden teknologirisiko: navngiv taersklen, saet den på skrift og hold leverandoeren fast på den.
Hvem scorer scoreren
Der er en strukturel svaghed, ejere boer se klart, før de laener sig op ad CJS. Skalaen er skrevet af leverandoeren, og i dag scores den ogsaa af leverandoeren selv. Anthropic skrev rammen og tildeler for sine egne modeller baandene. Det er et rimeligt udgangspunkt for en helt ny standard, men det er endnu ikke en revisionsstandard i den forstand, en indkoebsansvarlig ville anerkende.
Risikoen er saeregen for en eksponentiel skala. Når hvert baand defineres som flere gange værre end det foregaaende, flytter smaa scoringsvalg hovedtallet langt. Uden en uafhaengig scorer er der et stille incitament for enhver leverandoer til at beskrive egne fund forsigtigt, og en eksponentiel alvorsskala kan drive fra en revisionsstandard mod en marketinggradient. Det er den ene forsigtighed, en bestyrelse boer tage med i enhver leverandoersamtale om CJS.
Loesningen er ikke at afvise skalaen, men at lukke det hul, den efterlader åbent. Ejere boer kraeve en CJS-attestation fra tredjepart, saa det baand, en leverandoer haevder, er kontrolleret af nogen, der ikke sælger modellen. De boer skrive kontraktlige CJS-lofter i stedet for at acceptere selvrapporterede baand som sikkerhed. Og de boer spoerge, hvilket organ der tildelte en given karakter og mod hvilken version af rammen, samme omhu som enhver serioes køber laegger i en CVSS-vurdering eller et ISO-certifikat.
CJS er et aegte fremskridt: det giver ejere et ord, de ikke havde. Men en alvorsskala er kun saa pålidelig som den part, der tildeler tallet, og indtil en uafhaengig scorer står ved siden af leverandoeren, er baandet på papiret en påstand, endnu ikke en garanti.
Læs videre: Cyberkriminelle låner Deres hjemmenet · En fjernet frontier-model er online igen



