Cyberbezpieczeństwo

Ryzyko jailbreaku ma teraz ocene wagi

Skala Cyber Jailbreak Severity firmy Anthropic zamienia bezpieczenstwo AI w kryterium zakupowe i audytowe, tak jak CVSS uczynil to dla błędów oprogramowania.

CyberbezpieczeństwoAutor Servola Tech Desk2026-07-045 min czytania

Wspomagane przez AI, redagowane przez ludzi. Standardy redakcyjne

Moment CVSS dla jailbreakow AI

2 lipca 2026 Anthropic opublikował skale Cyber Jailbreak Severity, w skrocie CJS, aby ujednolicic sposob, w jaki twórcy AI opisuja, jak grozny naprawde jest jailbreak. Do tej pory firma, która odkryla sposob na zmuszenie modelu do wygenerowania kodu ataku, nie miala wspolnego slownictwa dla takiego odkrycia. CJS nadaje mu liczbe od zera do dziesieciu, dokladnie ten ruch, który CVSS wykonał dekade temu dla podatności oprogramowania.

Skala CJS definiuje ocene wzdluz czterech osi. Przyrost możliwości, od 0 do 4, mierzy, jak daleko jailbreak siega poza narzędzia, które atakujacy juz posiada. Szerokosc możliwości, od 0 do 2, liczy, ile odrebnych zadan ofensywnych umozliwia. Latwosc uzbrojenia, od 0 do 2, ujmuje wysilek potrzebny, by uczynić go operacyjnym. Wykrywalnosc, od 0 do 2, odzwierciedla, jak latwo aktorzy zagrozen mogą go zdobyc. Osie sumuja sie w piec pasm: CJS-0 Informacyjne przy zerze, CJS-1 Niskie od 1 do 3,5, CJS-2 Średnie od 4 do 6,5, CJS-3 Wysokie od 7 do 8,5 i CJS-4 Krytyczne od 9 do 10. Pasma sa pomyslane jako wykładnicze, wiec kazdy stopien jest kilkakrotnie gorszy od poprzedniego.

Anthropic wydal CJS wraz z rozszerzonymi zabezpieczeniami cyber dla swojego modelu Fable 5. Te zabezpieczenia przepuszczaja zapytańia o bezpieczenstwo przez klasyfikator o czterech kategoriach. Uzycie zabronione jest blokowane w calosci i obejmuje ransomware, wipery, omijanie obrony, tworzenie malware, eksfiltracje danych i ataki na szkielet internetu. Uzycie podwojne wysokiego ryzyka jest blokowane do czasu lepszych mechanizmow i obejmuje testy penetracyjne, tworzenie exploitow, eskalację uprawnien oraz wysoce skuteczne znajdowanie podatności. Uzycie podwojne niskiego ryzyka jest monitorowane z selektywna blokada i obejmuje bialy wywiad, standardowa identyfikację podatności oraz testowanie protokolow kryptograficznych. Uzycie łagodne jest dozwolone z monitorowaniem i obejmuje bezpieczne kodowanie, debugowanie, zarzadzanie łatkami, reagowanie na incydenty oraz inżynierię wsteczną malware.

Ramy powstaly z grupa partnerow Glasswing, która Anthropic wymienia, wliczając Amazon, Microsoft i Google, a firma otworzyla program na HackerOne zapraszajacy badaczy do zglaszania odkrytych jailbreakow. Dla zarzadu istotny szczegol jest prosty: po raz pierwszy jailbreak ma ocene, która potrafi odczytac osoba niebedaca specjalista.

Dlaczego liczba zmienia rozmowę kupującego

Liczba wagi robi cos, czego oswiadczenie o bezpieczenstwie nigdy nie potrafilo. Przenosi pytanie z prezentacji handlowej dostawcy do rejestru ryzyka kupującego. CVSS zrobil dokladnie to dla oprogramowania: gdy tylko błąd mial ocene, dzialy zakupow mogly wpisać ja do umow, ubezpieczyciele mogli ja wycenic, a audytorzy mogli sprawdzic, czy dostawca spelnia zadeklarowany prog. CJS otwiera te sama droge dla modeli AI.

Dla europejskiego właściciela to pierwszy artefakt, który pozwala zarzadowi żądać pytanie konkretne, a nie ogolne. Zamiast pytac, czy dostawca modelu traktuje bezpieczenstwo powaznie, zarzad może zapytac, na jakim pasmie CJS dostawca ustawia limit i kto to pasmo przypisal. To pytanie wpasowuje sie wprost w istniejace obowiazki. NIS2 wymaga od objetych operatorow zarzadzania ryzykiem lancucha dostaw i technologii na udokumentowanej podstawie, a DORA naklada na podmioty finansowe porownywalne kontrole nad zewnetrznymi dostawcami ICT. Pasmo CJS to właśnie ten rodzaj mierzalnej danej, dla której te rejestry zbudowano.

Praktyczny skutek jest taki, ze bezpieczenstwo AI przestaje byc haslem i staje sie pozycja w umowie. Wlasciciel może określić, ze wdrożony model nie może przekroczyc nazwanego pasma CJS dla zdefiniowanej klasy zapytań, i może wymagac powiadomienia, jesli odkryty jailbreak przesunalby go poza te linie. W Polsce znajome ramy zapewnia CERT Polska, a dla podmiotow finansowych wiaze wymog DORA, który nagradza właśnie te mierzalna, udokumentowana kontrole nad dostawca.

Nic z tego nie wymaga, aby firma stala sie laboratorium badawczym AI. Wymaga, aby zarzad traktowal ryzyko modelu tak, jak juz traktuje kazde inne ryzyko technologiczne: nazwac prog, ujac go na pismie i związać nim dostawce.

Kto ocenia oceniającego

Istnieje strukturalna slabosc, która właściciele powinni jasno dostrzec, zanim oprza sie na CJS. Skala jest napisana przez dostawce, a dzis jest tez samodzielnie przez niego oceniana. Anthropic napisal ramy i dla wlasnych modeli przypisuje pasma. To rozsadny punkt wyjscia dla zupelnie nowego standardu, ale to jeszcze nie standard audytowy w sensie, który uznalby specjalista ds. zakupow.

Ryzyko jest wlasciwe skali wykładniczej. Gdy kazde pasmo definiuje sie jako kilkakrotnie gorsze od poprzedniego, drobne wybory przy ocenie mocno przesuwaja liczbe naglowkowa. Bez niezaleznego oceniającego istnieje cichy bodziec, by kazdy dostawca opisywal wlasne odkrycia ostroznie, a wykladnicza skala wagi może zsunac sie ze standardu audytowego w gradient marketingowy. To jedyna ostroznosc, która zarzad powinien wniesc do kazdej rozmowy z dostawca o CJS.

Lekarstwem nie jest odrzucenie skali, lecz zamknięcie luki, która pozostawia otwarta. Wlasciciele powinni żądać atestacji CJS przez stronę trzecia, aby pasmo deklarowane przez dostawce zostalo sprawdzone przez kogos, kto nie sprzedaje modelu. Powinni wpisywac umowne limity CJS zamiast przyjmowac samodzielnie zgloszone pasma jako gwarancję. I powinni pytac, który organ przypisal dana ocene i wobec której wersji ram, z ta sama starannoscia, jaka kazdy powazny kupujący stosuje wobec oceny CVSS lub certyfikatu ISO.

CJS to prawdziwy postep: daje właścicielom slowo, którego nie mieli. Ale skala wagi jest tylko tak wiarygodna, jak strona, która przypisuje liczbe, i dopoki niezależny oceniający nie stanie obok dostawcy, pasmo na papierze jest twierdzeniem, a jeszcze nie gwarancją.

Czytaj dalej: Cyberprzestępcy pożyczają wasz internet · Wycofany model graniczny znów jest online

Często zadawane pytania

Czym jest skala Cyber Jailbreak Severity?

To system oceny, który Anthropic opublikował 2 lipca 2026 i który ocenia, jak grozny jest jailbreak AI w mierze od 0 do 10 z pieciu pasmami, od CJS-0 Informacyjne do CJS-4 Krytyczne, aby twórcy i kupujący mieli wspolne slownictwo dla ryzyka.

Jak CJS ma sie do NIS2 i DORA?

Oba rezimy wymagaja od objetych organizacji zarzadzania ryzykiem technologii i lancucha dostaw na udokumentowanej i mierzalnej podstawie. Pasmo CJS to konkretna dana, która zarzad może zapisac w rejestrze ryzyka i uzyc jako prog dla dostawcy modelu.

O co właściciel powinien zapytac dostawce modelu w sprawie CJS?

Zapytaj, na jakim pasmie CJS dostawca ustawia limit dla twoich istotnych typow zapytań, kto to pasmo przypisal i czy niezależna strona to poświadczyła. Nastepnie wpisz umowny limit CJS zamiast przyjmowac samodzielnie zgloszone pasmo jako gwarancję.

Skala wagi jest tylko tak wiarygodna, jak strona, która ja ocenia, dlatego właściciele powinni przyjac CJS jako dźwignię zakupowa i domagać sie niezależnej atestacji, która zamienia twierdzenie w gwarancję.

Cybersecurity AI Safety Jailbreak Risk Scoring Procurement NIS2

Więcej z Servola Journal

Cyberbezpieczeństwo

Cyberprzestępcy pożyczają wasz internet

Google i FBI rozbiły NetNut, sieć proxy złożoną z co najmniej 2 milionów urządzeń domowych, używaną w jeden tydzień przez 316 grup przestępczych. Dlaczego reputacja IP umarła, a wasze urządzenia to nowy perymetr.

3 min czytania4 wyświetleń

Cyberbezpieczeństwo

Wycofany model graniczny znów jest online

USA zniosły kontrole eksportowe Claude Fable 5 po 19 dniach. Anthropic odkupił dostęp retrenowanym klasyfikatorem i skalą powagi jailbreaków w stylu CVSS. Co to oznacza dla operatorów.

4 min czytania

Cyberbezpieczeństwo

Twój agent AI ufa zatrutemu narzędziu

Microsoft ostrzega, że zatruty opis narzędzia może zmienić twojego agenta AI w wyciek danych, bez złamania jakiejkolwiek reguły i bez wykorzystania błędu. Co właściciele muszą zablokować.

2 min czytania1 wyświetleń

Servola

Servola pomaga właścicielom firm przekształcić twierdzenie CJS dostawcy modelu w umowny limit z niezależna atestacja. Porozmawiaj z nami, zanim podpiszesz.

Poproś o poufną rozmowę O Servoli →

Servola to doradztwo technologiczne dla niewielkiej liczby rodzin i family offices. Gdy decyzji nie można delegować, siadamy po Twojej stronie stołu.

Servola Systems GmbH · Ludwigshafen, Niemcy · [email protected]

← Wszystkie artykuły