Ciberseguridad

El riesgo de jailbreak ya tiene una nota de gravedad

La escala Cyber Jailbreak Severity de Anthropic convierte la seguridad de la IA en un criterio de compra y auditoria, cómo hizo CVSS con los fallos de software.

CiberseguridadPor Servola Tech Desk2026-07-045 min de lectura

Asistido por IA, editado por personas. | Editor-in-Chief: Leon Soliman | Normas editoriales

El riesgo de jailbreak ya tiene una nota de gravedad

Puntos clave

El 2 de julio de 2026 Anthropic publico la escala Cyber Jailbreak Severity (CJS), una medida de cinco bandas de 0 a 10 sobre lo peligroso que es un jailbreak de IA.
CJS combina cuatro ejes: ganancia de capacidad, amplitud de capacidad, facilidad de armamentización y descubribilidad, sumados en bandas pensadas cómo exponenciales.
Llego junto a las salvaguardas ciberneticas de Fable 5, que ordenan las peticiones de seguridad en cuatro categorias, del uso prohibido al uso benigno.
Una nota comun permite a un consejo escribir el riesgo del proveedor en contratos y registros de riesgo, encajando con los deberes de NIS2 y DORA.
El problema: hoy CJS lo redacta y se lo autopuntua el propio proveedor, por lo que los dueños deben exigir atestáción independiente y topes contractuales de CJS.

Un momento CVSS para los jailbreaks de IA

El 2 de julio de 2026 Anthropic publico una escala Cyber Jailbreak Severity, o CJS, para estándarizar cómo los desarrolladores de IA describen lo grave que es en realidad un jailbreak. Hasta ahora, una empresa que descubria una forma de que un modelo produjera código de ataque no tenia un vocabulario comun para el hallazgo. CJS le da un número entre cero y diez, el mismo paso que dio CVSS hace una década para las vulnerabilidades de software.

La escala CJS define la nota en cuatro ejes. La ganancia de capacidad, de 0 a 4, mide hasta donde llega el jailbreak más alla de las herramientas existentes del atacante. La amplitud de capacidad, de 0 a 2, cuenta cuantas tareas ofensivas distintas habilita. La facilidad de armamentización, de 0 a 2, recoge el esfuerzo para volverlo operativo. La descubribilidad, de 0 a 2, refleja con que facilidad los actores de amenaza pueden obtenerlo. Los ejes se suman en cinco bandas: CJS-0 Informativa en cero, CJS-1 Baja de 1 a 3,5, CJS-2 Media de 4 a 6,5, CJS-3 Alta de 7 a 8,5 y CJS-4 Crítica de 9 a 10. Las bandas se conciben cómo exponenciales, de modo que cada paso es varias veces peor que el anterior.

Anthropic publico CJS junto a salvaguardas ciberneticas ampliadas para su modelo Fable 5. Esas salvaguardas pasan un clasíficador de cuatro categorias sobre las peticiones de seguridad. El uso prohibido se bloquea por completo y abarca ransomware, wipers, evasíon de defensas, desarrollo de malware, exfiltración de datos y ataques a la red troncal de internet. El uso dual de alto riesgo se bloquea a la espera de mejores controles y abarca pruebas de penetración, desarrollo de exploits, escalada de privilegios y hallazgo de vulnerabilidades de alto impacto. El uso dual de bajo riesgo se monitoriza con bloqueo selectivo y abarca inteligencia de fuentes abiertas, identificación estándar de vulnerabilidades y prueba de protocolos criptográficos. El uso benigno se permite con monitorización y abarca codificación segura, depuración, gestión de parches, respuestá a incidentes e ingeniería inversa de malware.

El marco se desarrollo con un grupo de socios Glasswing que Anthropic nombra incluyendo a Amazon, Microsoft y Google, y abrió un programa en HackerOne que invita a los investigadores a enviar los jailbreaks que descubran. Para un consejo, el detalle que conviene retener es simple: por primera vez un jailbreak tiene una nota que un no especialista puede leer.

Por que un número cambia la conversación del comprador

Un número de gravedad hace algo que una declaracion de seguridad nunca pudo. Traslada la pregunta del argumentario del proveedor al registro de riesgo del comprador. CVSS hizo exactamente esto con el software: en cuanto un fallo tenia una nota, los equipos de compras podian escribirla en contratos, las aseguradoras podian ponerle precio y los auditores podian comprobar si un proveedor cumplia un umbral declarado. CJS abre el mismo camino para los modelos de IA.

Para un dueño europeo, este es el primer artefacto que permite a un consejo hacer una pregunta concreta en lugar de una vaga. En vez de preguntar si un proveedor de modelos se toma en serio la seguridad, el consejo puede preguntar en que banda CJS pone su tope el proveedor y quien asígno esa banda. Esa pregunta encaja directo en deberes ya existentes. NIS2 obliga a los operadores en su ambito a gestiónar el riesgo de cadena de suministro y de tecnología de forma documentada, y DORA impone a las entidades financieras controles comparables sobre terceros de TIC. Una banda CJS es justo el tipo de entrada medible para el que se construyeron esos registros.

El efecto práctico es que la seguridad de la IA deja de ser un eslogan y pasa a ser una linea de contrato. Un dueño puede especificar que un modelo desplegado no supere una banda CJS nombrada para una clase definida de peticion, y exigir aviso si un jailbreak descubierto lo empujara más alla de esa linea. En Espana, el INCIBE aporta el marco familiar con sus guias de gestión de proveedores, que premian exactamente este control medible y documentado sobre un suministrador.

Nada de esto exige que una empresa se convierta en un laboratorio de investigacion de IA. Exige que el consejo trate el riesgo del modelo cómo ya trata cualquier otro riesgo tecnologico: nombrar el umbral, ponerlo por escrito y obligar al proveedor a cumplirlo.

Quien puntua al que puntua

Hay una debilidad estructural que los dueños deben ver con claridad antes de apoyarse en CJS. La escala la redacta el proveedor y hoy también se la autopuntua el proveedor. Anthropic escribio el marco y, para sus propios modelos, asígna las bandas. Es un punto de partida razonable para un estándar recien nacido, pero todavia no es un estándar de auditoria en el sentido que reconoceria un responsable de compras.

El riesgo es propio de una escala exponencial. Cuando cada banda se define cómo varias veces peor que la anterior, pequeñas decisiones de puntuacion mueven mucho el número final. Sin un puntuador independiente, existe un incentivo silencioso para que cualquier proveedor describa con prudencia sus propios hallazgos, y una escala de gravedad exponencial puede derivar de estándar de auditoria a gradiente de marketing. Esa es la unica cautela que un consejo debería llevar a cada conversación con un proveedor sobre CJS.

El remedio no es rechazar la escala sino cerrar el hueco que deja abierto. Los dueños deben exigir una atestáción CJS de un tercero, para que la banda que el proveedor afirma haya sido verificada por alguien que no vende el modelo. Deben escribir topes contractuales de CJS en vez de aceptar bandas autoreportadas cómo garantia. Y deben preguntar que organismo asígno una nota y contra que versión del marco, la misma diligencia que cualquier comprador serio aplica a una valoración CVSS o a un certificado ISO.

CJS es un avance genuino: da a los dueños una palabra que no tenian. Pero una escala de gravedad solo es tan fiable cómo la parte que asígna el número, y hasta que un puntuador independiente se situe junto al proveedor, la banda en el papel es una afirmacion, todavia no una garantia.

Leer a continuación: Una sola brecha de proveedor causó la mitad de las víctimas de ransomware en Europa | Un modelo frontera retirado vuelve a estar en línea

Preguntas frecuentes

Que es la escala Cyber Jailbreak Severity?

Es un sistema de puntuacion que Anthropic publico el 2 de julio de 2026 que califica lo peligroso que es un jailbreak de IA en una medida de 0 a 10 con cinco bandas, de CJS-0 Informativa a CJS-4 Crítica, para que desarrolladores y compradores compartan un vocabulario comun del riesgo.

Como se relaciona CJS con NIS2 y DORA?

Ambos regimenes obligan a las organizaciones en su ambito a gestiónar el riesgo de tecnología y de cadena de suministro de forma documentada y medible. Una banda CJS es una entrada concreta que un consejo puede registrar en un registro de riesgo y usar cómo umbral para un proveedor de modelos.

Que debería preguntar un dueño a un proveedor de modelos sobre CJS?

Pregunte en que banda CJS pone su tope el proveedor para sus tipos de peticion relevantes, quien asígno esa banda y si una parte independiente la atesto. Luego escriba un tope contractual de CJS en lugar de aceptar una banda autoreportada cómo garantia.

Una escala de gravedad solo es tan fiable cómo la parte que la puntua, así que los dueños deben adoptar CJS cómo palanca de compra e insistir en la atestáción independiente que convierte una afirmacion en una garantia.

CybersecurityAI SafetyJailbreakRisk ScoringProcurementNIS2

Más del Servola Journal

Ciberseguridad

El parche de SharePoint de mayo ya es urgente

CISA añadió el fallo de SharePoint CVE-2026-45659 a su lista de vulnerabilidades explotadas el 1 de julio. Microsoft lo consideró improbable de atacar. El parche existe desde mayo, y bajo NIS2 el reloj es suyo.

3 min de lectura1 visualizaciones

Ciberseguridad

81 millones de accesos a Microsoft 365

Una campaña de password spray lanzó 81 millones de intentos de acceso contra Microsoft 365 en dos semanas y esquivó la autenticación multifactor - no con un nuevo exploit, sino abusando de una vía de inicio de sesión antigua que omite el MFA.

3 min de lectura3 visualizaciones

Soberanía digital

Microsoft sube los precios de 365 mientras Francia y estados alemanes se marchan

El 1 de julio de 2026 suben los precios de Microsoft 365 mientras Francia y estados alemanes abandonan Microsoft. Por qué su renovación es ya una decisión de soberanía y cómo valorar la opción de salida.

3 min de lectura14 visualizaciones

← Todos los artículos

El riesgo de jailbreak ya tiene una nota de gravedad

Un momento CVSS para los jailbreaks de IA

Por que un número cambia la conversación del comprador

Quien puntua al que puntua

Preguntas frecuentes

El parche de SharePoint de mayo ya es urgente

81 millones de accesos a Microsoft 365

Microsoft sube los precios de 365 mientras Francia y estados alemanes se marchan

The Operator Brief