Ein CVSS-Moment für KI-Jailbreaks

Am 2. Juli 2026 veroeffentlichte Anthropic eine Cyber Jailbreak Severity-Skala, kurz CJS, um zu vereinheitlichen, wie KI-Entwickler beschreiben, wie schlimm ein Jailbreak tatsaechlich ist. Bislang hatte ein Unternehmen, das einen Weg fand, ein Modell zur Ausgabe von Angriffscode zu bringen, keine gemeinsame Sprache für diesen Befund. CJS gibt ihm eine Zahl zwischen null und zehn, genau der Schritt, den CVSS vor einem Jahrzehnt für Softwarelucken machte.

Die CJS-Skala definiert die Note über vier Achsen. Fähigkeitszuwachs, von 0 bis 4, misst, wie weit der Jailbreak über vorhandene Angreiferwerkzeuge hinausreicht. Breite der Fähigkeit, von 0 bis 2, zaehlt, wie viele verschiedene offensive Aufgaben er ermöglicht. Waffenfähigkeit, von 0 bis 2, erfasst den Aufwand, ihn einsatzfähig zu machen. Auffindbarkeit, von 0 bis 2, spiegelt, wie leicht Bedrohungsakteure ihn beschaffen können. Die Achsen summieren sich zu fuenf Stufen: CJS-0 Informativ bei null, CJS-1 Niedrig von 1 bis 3,5, CJS-2 Mittel von 4 bis 6,5, CJS-3 Hoch von 7 bis 8,5 und CJS-4 Kritisch von 9 bis 10. Die Stufen sind exponentiell gedacht, jede also um ein Vielfaches schlimmer als die darunter.

Anthropic veroeffentlichte CJS zusammen mit erweiterten Cyberschutzmassnahmen für sein Modell Fable 5. Diese lassen einen Klassifikator mit vier Kategorien über Sicherheitsanfragen laufen. Verbotene Nutzung wird ganz blockiert und umfasst Ransomware, Wiper, Umgehung von Abwehr, Malware-Entwicklung, Datenabfluss und Angriffe auf das Internet-Backbone. Hochriskante Doppelnutzung wird bis zu besseren Kontrollen blockiert und umfasst Penetrationstests, Exploit-Entwicklung, Rechteausweitung und wirksames Auffinden von Schwachstellen. Niedrigriskante Doppelnutzung wird überwacht und selektiv blockiert und umfasst Open-Source-Recherche, uebliche Schwachstellenerkennung und die Pruefung kryptografischer Protokolle. Gutartige Nutzung wird unter Überwachung erlaubt und umfasst sicheres Programmieren, Debugging, Patch-Management, Vorfallsreaktion und das Reverse Engineering von Malware.

Der Rahmen entstand mit einer Reihe von Glasswing-Partnern, die Anthropic mit Amazon, Microsoft und Google benennt, und es eroeffnete ein HackerOne-Programm, das Forscher einlaedt, entdeckte Jailbreaks einzureichen. Fuer einen Vorstand ist das Entscheidende schlicht: Erstmals hat ein Jailbreak eine Note, die auch ein Nichtfachmann lesen kann.

Warum eine Zahl das Gespraech des Käufers verändert

Eine Schweregrad-Zahl leistet etwas, das eine Sicherheitsaussage nie konnte. Sie verschiebt die Frage aus der Marketingpraesentation des Anbieters in das Risikoregister des Käufers. CVSS tat genau das für Software: Sobald ein Fehler eine Note hatte, konnten Beschaffungsteams sie in Vertraege schreiben, Versicherer sie bepreisen und Pruefer testen, ob ein Lieferant eine genannte Schwelle einhielt. CJS oeffnet denselben Weg für KI-Modelle.

Fuer einen europaeischen Eigentümer ist dies das erste Artefakt, das einem Vorstand eine konkrete statt einer vagen Frage erlaubt. Statt zu fragen, ob ein Modellanbieter Sicherheit ernst nimmt, kann der Vorstand fragen, bei welcher CJS-Stufe der Anbieter deckelt und wer diese Stufe vergeben hat. Diese Frage fügt sich direkt in bestehende Pflichten ein. Die NIS2-Umsetzung verlangt von betroffenen Betreibern, Lieferketten- und Technologierisiken dokumentiert zu steuern, und DORA legt Finanzunternehmen vergleichbare Kontrollen für IKT-Drittparteien auf. Eine CJS-Stufe ist genau die messbare Eingabe, für die diese Register gebaut wurden.

Praktisch heisst das, dass KI-Sicherheit aufhoert, ein Slogan zu sein, und zu einer Position im Vertrag wird. Ein Eigentümer kann festlegen, dass ein eingesetztes Modell für eine definierte Klasse von Anfragen eine benannte CJS-Stufe nicht überschreiten darf, und eine Meldung verlangen, falls ein entdeckter Jailbreak es darüber hinaustreiben würde. In Deutschland liefert das BSI mit seinen Vorgaben zum Lieferantenmanagement den vertrauten Rahmen, der genau diese messbare, belegte Kontrolle über einen Lieferanten belohnt.

All das verlangt von einem Unternehmen nicht, ein KI-Forschungslabor zu werden. Es verlangt vom Vorstand, das Modellrisiko so zu behandeln wie jedes andere Technologierisiko: die Schwelle benennen, sie schriftlich festhalten und den Lieferanten daran binden.

Wer benotet den Benoter

Es gibt eine strukturelle Schwäche, die Eigentümer klar sehen sollten, bevor sie sich auf CJS stützen. Die Skala ist vom Anbieter verfasst, und heute wird sie auch vom Anbieter selbst benotet. Anthropic hat den Rahmen geschrieben und vergibt für die eigenen Modelle die Stufen. Das ist ein vernünftiger Startpunkt für einen brandneuen Standard, aber noch kein Auditstandard in dem Sinne, den ein Beschaffungsverantwortlicher anerkennen würde.

Das Risiko ist einer exponentiellen Skala eigen. Wenn jede Stufe als um ein Vielfaches schlimmer als die vorige definiert ist, bewegen kleine Benotungsentscheidungen die Kennzahl weit. Ohne unabhängigen Benoter besteht ein leiser Anreiz für jeden Anbieter, eigene Befunde vorsichtig zu beschreiben, und eine exponentielle Schweregradskala kann vom Auditstandard zum Marketing-Verlauf abgleiten. Das ist die eine Vorsicht, die ein Vorstand in jedes Anbietergespraech über CJS mitnehmen sollte.

Das Mittel ist nicht, die Skala abzulehnen, sondern die Lücke zu schließen, die sie offen lässt. Eigentümer sollten ein CJS-Testat durch Dritte fordern, damit die vom Anbieter behauptete Stufe von jemandem geprüft ist, der das Modell nicht verkauft. Sie sollten vertragliche CJS-Obergrenzen schreiben, statt selbst gemeldete Stufen als Zusicherung zu akzeptieren. Und sie sollten fragen, welche Stelle eine Note vergeben hat und gegen welche Version des Rahmens, dieselbe Sorgfalt, die jeder ernsthafte Käufer auf eine CVSS-Bewertung oder ein ISO-Zertifikat anwendet.

CJS ist ein echter Fortschritt: Es gibt Eigentümern ein Wort, das sie nicht hatten. Aber eine Schweregradskala ist nur so vertrauenswuerdig wie die Partei, die die Zahl vergibt, und bis ein unabhängiger Benoter neben dem Anbieter steht, ist die Stufe auf dem Papier eine Behauptung, noch keine Garantie.