Dix-neuf jours hors ligne, sur ordre du gouvernement
Le 30 juin 2026, Anthropic a annoncé que le Département du Commerce américain avait levé les contrôles à l'exportation imposés à Claude Fable 5 et Mythos 5, et a commencé à rétablir l'accès dès le lendemain. La suspension avait duré 19 jours : imposée le 12 juin, elle exigeait de bloquer l'accès de tout ressortissant étranger où qu'il soit, condition qu'Anthropic ne pouvait vérifier en temps réel, si bien que les deux modèles ont été coupés pour tout le monde. CNBC, Decrypt et The Hacker News ont couvert l'extinction et le revirement.
Le déclencheur était précis. Des chercheurs d'Amazon avaient démontré un moyen de contourner les garde-fous de Fable 5 pour lui faire identifier des vulnérabilités logicielles et démontrer des techniques d'exploitation. Le gouvernement a traité un modèle de frontière jailbreaké comme une capacité cyber contrôlée, et le marché a appris qu'un modèle peut être éteint par directive, en plein contrat, dans le monde entier.
Ce qui a réellement racheté l'accès
Le modèle n'est pas revenu parce que l'ordre a expiré. Il est revenu parce qu'Anthropic a présenté un correctif et un argument. Le correctif est un classifieur de sécurité réentraîné contre la technique signalée, qui la bloque désormais, selon l'entreprise, dans plus de 99 pour cent des tentatives ; les requêtes signalées sont déroutées vers Claude Opus 4.8, un modèle moins capable, avec notification à l'utilisateur. Anthropic concède que le filet resserré attrape aussi davantage de travail légitime, acceptant plus de faux positifs dans le code courant comme marge de sécurité délibérée.
L'argument pèse au moins autant : la parité des capacités. Anthropic a documenté que des modèles moins capables et librement disponibles, dont son propre Opus 4.8, GPT-5.5 d'OpenAI et Kimi K2.7, pouvaient répliquer les mêmes démonstrations de vulnérabilités. Quand une capacité est partout, contrôler le modèle d'un fournisseur ne restreint rien. Cette logique a rouvert Fable 5, et elle définit en silence le fonctionnement des contrôles futurs : ils ne mordront qu'au sommet de la courbe des capacités, pendant que le plancher continue de monter.
Le cadre publié deux jours plus tard
Le 2 juillet, Anthropic a publié la mécanique derrière le correctif. Les requêtes cyber sont triées en quatre niveaux : usages interdits comme les rançongiciels et l'exfiltration de données, bloqués entièrement ; double usage à haut risque comme le développement d'exploits et l'élévation de privilèges, majoritairement bloqué en attendant de meilleurs contrôles d'accès ; double usage à faible risque comme le renseignement en sources ouvertes et l'identification de vulnérabilités dans les capacités des outils existants, autorisé sous surveillance ; et travail bénin comme le code sécurisé et la réponse aux incidents, autorisé avec un minimum de friction.
Est arrivée en parallèle une échelle proposée de gravité des jailbreaks, CJS, de 0 pour informatif à 4 pour critique, notée sur quatre axes : le gain de capacité au-delà des outils existants, le nombre de tâches offensives rendues possibles, la facilité d'armement et la découvrabilité. Un programme de primes HackerOne pour la découverte de jailbreaks accompagne le cadre, qu'Anthropic qualifie de brouillon précoce.
Un CVSS des jailbreaks, et où il s'étend
Les équipes de sécurité connaissent ce film. CVSS a commencé comme la convention de notation d'un fournisseur et est devenu le chiffre que réclament chaque décision de correctif, chaque questionnaire d'achat et chaque formulaire de cyberassurance. Une échelle de gravité des jailbreaks comble le même vide : aujourd'hui, quand une technique de contournement circule, un RSSI n'a aucun moyen standard de dire à quel point elle est grave. CJS, ou le successeur sur lequel le secteur convergera, donne aux comités des risques, aux régulateurs et aux assureurs un dénominateur commun pour l'exposition aux modèles d'IA.
Pour les opérateurs européens, la direction est concrète : attendez-vous à ce que les questionnaires fournisseurs d'IA gagnent une section gravité des jailbreaks, à ce que les assureurs cyber demandent quels modèles vous exposez à des entrées non fiables, et à ce que le dossier de sécurité, preuves du classifieur plus notation de gravité, devienne le document qui décide si un modèle peut servir dans des flux régulés sous des cadres comme NIS2.
La leçon pour l'opérateur : la disponibilité est désormais conditionnelle
Le fait profond de l'épisode n'est pas le jailbreak mais les 19 jours. Un modèle de frontière sous contrats d'entreprise s'est éteint mondialement par directive gouvernementale et n'est revenu que lorsqu'un dossier de sécurité a satisfait le régulateur. La disponibilité des modèles est désormais conditionnée aux preuves, et les pannes de cette classe sont un mode de défaillance démontré, pas une hypothèse. Toute entreprise dont les flux dépendent d'une seule API de frontière devrait traiter cela comme un intrant d'usine à fournisseur unique : avec une bascule testée vers un second modèle, une procédure écrite de basculement et un contrat qui dit ce qu'il advient des redevances quand le produit est éteint par quelqu'un auprès de qui aucune des parties ne peut faire appel.
À lire ensuite: Le cybercrime emprunte votre connexion · Votre agent IA fait confiance à un outil piégé



