Dziewiętnaście dni offline, na rozkaz rządu

30 czerwca 2026 roku Anthropic ogłosił, że amerykański Departament Handlu zniósł kontrole eksportowe nałożone na Claude Fable 5 i Mythos 5, i następnego dnia zaczął przywracać dostęp. Zawieszenie trwało 19 dni: nałożone 12 czerwca wymagało zablokowania dostępu każdemu cudzoziemcowi gdziekolwiek, warunku, którego Anthropic nie potrafił weryfikować w czasie rzeczywistym, więc wyłączył oba modele dla wszystkich. CNBC, Decrypt i The Hacker News relacjonowały wyłączenie i zwrot.

Powód był konkretny. Badacze Amazona zademonstrowali sposób obejścia zabezpieczeń Fable 5, tak by model identyfikował podatności oprogramowania i demonstrował techniki ich wykorzystania. Rząd potraktował złamany model graniczny jak kontrolowaną zdolność cybernetyczną, a rynek nauczył się, że model można wyłączyć dyrektywą, w środku umowy, na całym świecie.

Co naprawdę odkupiło dostęp

Model nie wrócił, bo nakaz wygasł. Wrócił, bo Anthropic przedstawił poprawkę i argument. Poprawka to retrenowany klasyfikator bezpieczeństwa wymierzony w zgłoszoną technikę, który według firmy blokuje ją teraz w ponad 99 procentach prób; oznaczone zapytania są przekierowywane do Claude Opus 4.8, słabszego modelu, z powiadomieniem użytkownika. Anthropic przyznaje, że ciaśniejsza sieć łapie też więcej legalnej pracy, i świadomie akceptuje więcej fałszywych alarmów w rutynowym programowaniu jako margines bezpieczeństwa.

Argument waży co najmniej tyle samo: parytet zdolności. Anthropic udokumentował, że słabsze, swobodnie dostępne modele, w tym własny Opus 4.8, GPT-5.5 od OpenAI i Kimi K2.7, potrafiły powtórzyć te same demonstracje podatności. Gdy zdolność jest wszędzie, kontrolowanie modelu jednego dostawcy niczego nie ogranicza. Ta logika otworzyła Fable 5 z powrotem i po cichu definiuje, jak będą działać przyszłe kontrole: będą wiązać tylko sam szczyt krzywej zdolności, podczas gdy podłoga poniżej wciąż się podnosi.

Ramy opublikowane dwa dni później

2 lipca Anthropic opublikował mechanizm stojący za poprawką. Zapytania cyber są sortowane na cztery poziomy: użycia zabronione, jak ransomware i eksfiltracja danych, blokowane całkowicie; podwójne zastosowania wysokiego ryzyka, jak tworzenie exploitów i eskalacja uprawnień, w większości blokowane do czasu lepszych kontroli dostępu; podwójne zastosowania niskiego ryzyka, jak biały wywiad i identyfikacja podatności w granicach możliwości istniejących narzędzi, dozwolone z monitoringiem; oraz praca łagodna, jak bezpieczne programowanie i reagowanie na incydenty, dozwolona z minimalnym tarciem.

Równolegle pojawiła się proponowana skala powagi jailbreaków, CJS, od 0 informacyjnego do 4 krytycznego, oceniana na czterech osiach: ile zdolności jailbreak dodaje ponad istniejące narzędzia, ile zadań ofensywnych umożliwia, jak łatwo daje się uzbroić i jak łatwo go odkryć. Ramom towarzyszy program nagród HackerOne za znajdowanie jailbreaków, a Anthropic wyraźnie nazywa całość wczesnym szkicem.

CVSS dla jailbreaków i dokąd się rozniesie

Zespoły bezpieczeństwa znają ten film. CVSS zaczynał jako konwencja punktowa jednego dostawcy, a stał się liczbą, o którą pyta każda decyzja o łatce, każdy kwestionariusz zakupowy i każdy formularz ubezpieczenia cyber. Skala powagi jailbreaków wypełnia tę samą próżnię: dziś, gdy krąży technika obejścia, CISO nie ma standardowego sposobu, by powiedzieć, jak bardzo jest groźna. CJS, albo następca, na którym branża się zejdzie, daje komitetom ryzyka, regulatorom i ubezpieczycielom wspólny mianownik ekspozycji na modele AI.

Dla europejskich operatorów kierunek jest konkretny: należy się spodziewać, że kwestionariusze dostawców AI zyskają sekcję powagi jailbreaków, że ubezpieczyciele polis cyber zapytają, które modele wystawiacie na niezaufane dane wejściowe, i że dossier bezpieczeństwa, dowód klasyfikatora plus ocena powagi, stanie się dokumentem decydującym, czy model wolno stosować w regulowanych procesach pod ramami takimi jak NIS2.

Lekcja dla operatora: dostępność jest teraz warunkowa

Głębszym faktem tego epizodu nie jest jailbreak, lecz 19 dni. Model graniczny z umowami korporacyjnymi zgasł globalnie na mocy rządowej dyrektywy i wrócił dopiero, gdy dossier bezpieczeństwa usatysfakcjonowało regulatora. Dostępność modeli jest teraz uwarunkowana dowodami, a przerwy tej klasy to udokumentowany tryb awarii, nie hipoteza. Każda firma, której procesy zależą od jednego granicznego API, powinna traktować to jak fabryczny surowiec od jedynego dostawcy: z przetestowanym przełączeniem na drugi model, spisaną procedurą zmiany i umową mówiącą, co dzieje się z opłatami, gdy produkt wyłącza ktoś, do kogo żadna ze stron nie może się odwołać.