Diecinueve días fuera de línea, por orden gubernamental
El 30 de junio de 2026 Anthropic anunció que el Departamento de Comercio de EE. UU. había levantado los controles de exportación impuestos a Claude Fable 5 y Mythos 5, y comenzó a restablecer el acceso al día siguiente. La suspensión duró 19 días: impuesta el 12 de junio, exigía bloquear el acceso de cualquier ciudadano extranjero en cualquier lugar, una condición que Anthropic no podía verificar en tiempo real, así que retiró ambos modelos para todos. CNBC, Decrypt y The Hacker News cubrieron el apagón y el giro.
El detonante fue concreto. Investigadores de Amazon habían demostrado una forma de sortear las salvaguardas de Fable 5 para que identificara vulnerabilidades de software y demostrara técnicas de explotación. El gobierno trató un modelo frontera con jailbreak como una capacidad cibernética controlada, y el mercado aprendió que un modelo puede apagarse por directiva, en mitad del contrato, en todo el mundo.
Qué recompró realmente el acceso
El modelo no volvió porque la orden caducara. Volvió porque Anthropic presentó una corrección y un argumento. La corrección es un clasificador de seguridad reentrenado contra la técnica denunciada, que según la empresa la bloquea ahora en más del 99 por ciento de los intentos; las peticiones marcadas se desvían a Claude Opus 4.8, un modelo menos capaz, con aviso al usuario. Anthropic admite que la red más estrecha atrapa también más trabajo legítimo, aceptando más falsos positivos en la programación rutinaria como margen de seguridad deliberado.
El argumento pesa al menos tanto: paridad de capacidades. Anthropic documentó que modelos menos capaces y disponibles libremente, incluidos su propio Opus 4.8, GPT-5.5 de OpenAI y Kimi K2.7, podían replicar las mismas demostraciones de vulnerabilidades. Cuando una capacidad está en todas partes, controlar el modelo de un proveedor no restringe nada. Esa lógica reabrió Fable 5, y define en silencio cómo funcionarán los controles futuros: solo atarán la cima de la curva de capacidades, mientras el suelo por debajo sigue subiendo.
El marco publicado dos días después
El 2 de julio Anthropic publicó la maquinaria detrás de la corrección. Las peticiones ciber se ordenan en cuatro niveles: usos prohibidos como ransomware y exfiltración de datos, bloqueados por completo; doble uso de alto riesgo como desarrollo de exploits y escalada de privilegios, mayormente bloqueado hasta que existan mejores controles de acceso; doble uso de bajo riesgo como inteligencia de fuentes abiertas e identificación de vulnerabilidades dentro de las capacidades de herramientas existentes, permitido con vigilancia; y trabajo benigno como programación segura y respuesta a incidentes, permitido con mínima fricción.
Junto a ello llegó una escala propuesta de gravedad de jailbreaks, CJS, de 0 informativo a 4 crítico, puntuada en cuatro ejes: cuánta capacidad añade el jailbreak sobre las herramientas existentes, cuántas tareas ofensivas habilita, con qué facilidad se convierte en arma y qué tan descubrible es. Un programa de recompensas en HackerOne para el hallazgo de jailbreaks acompaña al marco, que Anthropic etiqueta como borrador temprano.
CVSS para jailbreaks, y hacia dónde se extiende
Los equipos de seguridad ya han visto esta película. CVSS empezó como la convención de puntuación de un proveedor y se convirtió en el número que piden cada decisión de parcheo, cada cuestionario de compras y cada formulario de ciberseguro. Una escala de gravedad de jailbreaks llena el mismo vacío: hoy, cuando circula una técnica de evasión, un CISO no tiene forma estándar de decir cuán grave es. CJS, o el sucesor en el que converja el sector, da a los comités de riesgo, reguladores y aseguradoras un denominador común para la exposición a modelos de IA.
Para los operadores europeos la dirección es concreta: espere que los cuestionarios a proveedores de IA incorporen una sección de gravedad de jailbreaks, que las aseguradoras de pólizas ciber pregunten qué modelos expone a entradas no confiables, y que el expediente de seguridad, evidencia del clasificador más puntuación de gravedad, se convierta en el documento que decide si un modelo puede usarse en flujos regulados bajo marcos como NIS2.
La lección del operador: la disponibilidad es ahora condicional
El hecho profundo del episodio no es el jailbreak sino los 19 días. Un modelo frontera con contratos empresariales se apagó globalmente por directiva gubernamental y solo volvió cuando un expediente de seguridad satisfizo al regulador. La disponibilidad de modelos está ahora condicionada a la evidencia, y los apagones de esta clase son un modo de fallo demostrado, no una hipótesis. Toda empresa cuyos flujos dependan de una única API frontera debería tratarlo como trata un insumo de fábrica con proveedor único: con una conmutación probada a un segundo modelo, un procedimiento escrito de cambio y un contrato que diga qué pasa con las tarifas cuando el producto lo apaga alguien ante quien ninguna de las partes puede apelar.
Leer a continuación: El cibercrimen toma prestada su conexión · Tu agente confía en una herramienta dañada



