Cybersikkerhed

Jailbreak-risiko får nu en alvorsscore

Anthropics Cyber Jailbreak Severity-skala gør AI-sikkerhed til et indkoebs- og revisionskriterium, som CVSS gjorde for softwarefejl.

CybersikkerhedAf Servola Tech Desk2026-07-045 min læsning

AI-assisteret, redigeret af mennesker. Redaktionelle standarder

Et CVSS-øjeblik for AI-jailbreaks

Den 2. juli 2026 udgav Anthropic en Cyber Jailbreak Severity-skala, kort CJS, for at standardisere, hvordan AI-udviklere beskriver, hvor slemt et jailbreak faktisk er. Hidtil havde en virksomhed, der fandt en måde at faa en model til at producere angrebskode, intet faelles ordforraad for fundet. CJS giver fundet et tal mellem nul og ti, praecis det skridt CVSS tog for et årti siden for softwaresårbarheder.

CJS-skalaen definerer scoren over fire akser. Kapacitetsgevinst, fra 0 til 4, måler hvor langt jailbreaket når ud over angriberens eksisterende værktøjer. Bredde af kapacitet, fra 0 til 2, taeller hvor mange forskellige offensive opgaver det muliggør. Lethed ved våbengørelse, fra 0 til 2, fanger indsatsen for at gøre det operationelt. Opdagelighed, fra 0 til 2, afspejler hvor let trusselsaktoerer kan skaffe det. Akserne laegges sammen til fem baand: CJS-0 Informativ ved nul, CJS-1 Lav fra 1 til 3,5, CJS-2 Mellem fra 4 til 6,5, CJS-3 Høj fra 7 til 8,5 og CJS-4 Kritisk fra 9 til 10. Baandene er tiltaenkt eksponentielle, saa hvert trin er flere gange værre end det under.

Anthropic udgav CJS sammen med udvidede cybersikringer for sin model Fable 5. Disse sikringer koerer en klassifikator med fire kategorier over sikkerhedsanmodninger. Forbudt brug blokeres helt og omfatter ransomware, wipere, undgaaelse af forsvar, malwareudvikling, dataeksfiltrering og angreb på internettets rygrad. Højrisiko dobbeltbrug blokeres i afventning af bedre kontroller og omfatter penetrationstest, exploitudvikling, privilegieeskalering og højimpact-fund af sårbarheder. Lavrisiko dobbeltbrug overvaages med selektiv blokering og omfatter åbenkilde-efterretning, standard sårbarhedsidentifikation og test af kryptografiske protokoller. Godartet brug tillades med overvaagning og omfatter sikker kodning, fejlfinding, patchhaandtering, haendelsesrespons og reverse engineering af malware.

Rammen blev udviklet med en række Glasswing-partnere, som Anthropic nævner inklusive Amazon, Microsoft og Google, og den åbnede et HackerOne-program, der inviterer forskere til at indsende jailbreaks, de opdager. For en bestyrelse er detaljen vaerd at holde fast i enkel: for første gang har et jailbreak en karakter, som en ikke-specialist kan laese.

Hvorfor et tal aendrer køberens samtale

Et alvorstal gør noget, en sikkerhedserklaering aldrig kunne. Det flytter spoergsmålet fra leverandoerens salgsmateriale til køberens risikoregister. CVSS gjorde praecis dette for software: saa snart en fejl havde en score, kunne indkoebsteams skrive den ind i kontrakter, forsikringsselskaber kunne prissaette den, og revisorer kunne teste, om en leverandoer naaede en anført taerskel. CJS aabner den samme vej for AI-modeller.

For en europaeisk ejer er dette det første artefakt, der lader en bestyrelse stille et konkret i stedet for et vagt spoergsmål. I stedet for at spoerge, om en modelleverandoer tager sikkerhed alvorligt, kan bestyrelsen spoerge, hvilket CJS-baand leverandoeren saetter loft ved, og hvem der tildelte det baand. Det spoergsmål passer direkte ind i eksisterende pligter. NIS2 kraever, at omfattede operatoerer styrer forsynings- og teknologirisiko på et dokumenteret grundlag, og DORA pålaegger finansielle enheder sammenlignelige kontroller over IKT-tredjeparter. Et CJS-baand er netop den slags målbare input, disse registre blev bygget til.

Den praktiske virkning er, at AI-sikkerhed holder op med at være et slogan og bliver en kontraktlinje. En ejer kan angive, at en anvendt model ikke maa overstige et navngivet CJS-baand for en defineret klasse af anmodninger, og kan kraeve underretning, hvis et opdaget jailbreak ville skubbe den forbi den linje. I Danmark leverer CERT-miljoeet den velkendte ramme, og for finansielle enheder binder DORA kravet, der belonner netop denne målbare, dokumenterede kontrol over en leverandoer.

Intet af dette kraever, at en virksomhed bliver et AI-forskningslaboratorium. Det kraever, at bestyrelsen behandler modelrisiko, som den allerede behandler enhver anden teknologirisiko: navngiv taersklen, saet den på skrift og hold leverandoeren fast på den.

Hvem scorer scoreren

Der er en strukturel svaghed, ejere boer se klart, før de laener sig op ad CJS. Skalaen er skrevet af leverandoeren, og i dag scores den ogsaa af leverandoeren selv. Anthropic skrev rammen og tildeler for sine egne modeller baandene. Det er et rimeligt udgangspunkt for en helt ny standard, men det er endnu ikke en revisionsstandard i den forstand, en indkoebsansvarlig ville anerkende.

Risikoen er saeregen for en eksponentiel skala. Når hvert baand defineres som flere gange værre end det foregaaende, flytter smaa scoringsvalg hovedtallet langt. Uden en uafhaengig scorer er der et stille incitament for enhver leverandoer til at beskrive egne fund forsigtigt, og en eksponentiel alvorsskala kan drive fra en revisionsstandard mod en marketinggradient. Det er den ene forsigtighed, en bestyrelse boer tage med i enhver leverandoersamtale om CJS.

Loesningen er ikke at afvise skalaen, men at lukke det hul, den efterlader åbent. Ejere boer kraeve en CJS-attestation fra tredjepart, saa det baand, en leverandoer haevder, er kontrolleret af nogen, der ikke sælger modellen. De boer skrive kontraktlige CJS-lofter i stedet for at acceptere selvrapporterede baand som sikkerhed. Og de boer spoerge, hvilket organ der tildelte en given karakter og mod hvilken version af rammen, samme omhu som enhver serioes køber laegger i en CVSS-vurdering eller et ISO-certifikat.

CJS er et aegte fremskridt: det giver ejere et ord, de ikke havde. Men en alvorsskala er kun saa pålidelig som den part, der tildeler tallet, og indtil en uafhaengig scorer står ved siden af leverandoeren, er baandet på papiret en påstand, endnu ikke en garanti.

Læs videre: Cyberkriminelle låner Deres hjemmenet · En fjernet frontier-model er online igen

Ofte stillede spørgsmål

Hvad er Cyber Jailbreak Severity-skalaen?

Det er et scoresystem, Anthropic udgav den 2. juli 2026, der vurderer, hvor farligt et AI-jailbreak er på et mål fra 0 til 10 med fem baand, fra CJS-0 Informativ til CJS-4 Kritisk, saa udviklere og købere deler et faelles ordforraad for risikoen.

Hvordan forholder CJS sig til NIS2 og DORA?

Begge regimer kraever, at omfattede organisationer styrer teknologi- og forsyningskaederisiko på et dokumenteret og målbart grundlag. Et CJS-baand er et konkret input, en bestyrelse kan registrere i et risikoregister og bruge som taerskel for en modelleverandoer.

Hvad boer en ejer spoerge en modelleverandoer om vedroerende CJS?

Spoerg, hvilket CJS-baand leverandoeren saetter loft ved for dine relevante anmodningstyper, hvem der tildelte det baand, og om en uafhaengig part har attesteret det. Skriv derefter et kontraktligt CJS-loft i stedet for at acceptere et selvrapporteret baand som sikkerhed.

En alvorsskala er kun saa pålidelig som den part, der scorer den, saa ejere boer tage CJS til sig som en indkoebshaandtag og insistere på den uafhaengige attestation, der gør en påstand til en garanti.

Cybersecurity AI Safety Jailbreak Risk Scoring Procurement NIS2

Mere fra Servola Journal

Cybersikkerhed

Cyberkriminelle låner Deres hjemmenet

Google og FBI har lukket NetNut, et proxynetværk af mindst 2 millioner hjemmeenheder brugt af 316 trusselsgrupper på en uge. Derfor er IP-omdømme dødt, og Deres enheder er den nye perimeter.

3 min læsning4 visninger

Cybersikkerhed

En fjernet frontier-model er online igen

USA ophævede eksportkontrollen af Claude Fable 5 efter 19 dage. Anthropic købte adgangen tilbage med en gentrænet klassifikator og en CVSS-lignende jailbreak-alvorsskala. Hvad det betyder for operatører.

4 min læsning

Cybersikkerhed

Din AI-agent stoler på forgiftet værktøj

Microsoft advarer om, at en forgiftet værktøjsbeskrivelse kan gøre din AI-agent til et datalæk, uden at en regel brydes eller en fejl udnyttes. Det må ejere sikre.

2 min læsning1 visninger

Servola

Servola hjaelper virksomhedsejere med at omdanne en modelleverandoers CJS-påstand til et kontraktligt loft med uafhaengig attestation. Tal med os, før du skriver under.

Anmod om en fortrolig introduktion Om Servola →

Servola er teknologisk rådgivning for et lille antal familier og family offices. Når en beslutning ikke kan delegeres, sidder vi på din side af bordet.

Servola Systems GmbH · Ludwigshafen, Tyskland · [email protected]

← Alle artikler