Un momento CVSS para los jailbreaks de IA

El 2 de julio de 2026 Anthropic publico una escala Cyber Jailbreak Severity, o CJS, para estándarizar cómo los desarrolladores de IA describen lo grave que es en realidad un jailbreak. Hasta ahora, una empresa que descubria una forma de que un modelo produjera código de ataque no tenia un vocabulario comun para el hallazgo. CJS le da un número entre cero y diez, el mismo paso que dio CVSS hace una década para las vulnerabilidades de software.

La escala CJS define la nota en cuatro ejes. La ganancia de capacidad, de 0 a 4, mide hasta donde llega el jailbreak más alla de las herramientas existentes del atacante. La amplitud de capacidad, de 0 a 2, cuenta cuantas tareas ofensivas distintas habilita. La facilidad de armamentización, de 0 a 2, recoge el esfuerzo para volverlo operativo. La descubribilidad, de 0 a 2, refleja con que facilidad los actores de amenaza pueden obtenerlo. Los ejes se suman en cinco bandas: CJS-0 Informativa en cero, CJS-1 Baja de 1 a 3,5, CJS-2 Media de 4 a 6,5, CJS-3 Alta de 7 a 8,5 y CJS-4 Crítica de 9 a 10. Las bandas se conciben cómo exponenciales, de modo que cada paso es varias veces peor que el anterior.

Anthropic publico CJS junto a salvaguardas ciberneticas ampliadas para su modelo Fable 5. Esas salvaguardas pasan un clasíficador de cuatro categorias sobre las peticiones de seguridad. El uso prohibido se bloquea por completo y abarca ransomware, wipers, evasíon de defensas, desarrollo de malware, exfiltración de datos y ataques a la red troncal de internet. El uso dual de alto riesgo se bloquea a la espera de mejores controles y abarca pruebas de penetración, desarrollo de exploits, escalada de privilegios y hallazgo de vulnerabilidades de alto impacto. El uso dual de bajo riesgo se monitoriza con bloqueo selectivo y abarca inteligencia de fuentes abiertas, identificación estándar de vulnerabilidades y prueba de protocolos criptográficos. El uso benigno se permite con monitorización y abarca codificación segura, depuración, gestión de parches, respuestá a incidentes e ingeniería inversa de malware.

El marco se desarrollo con un grupo de socios Glasswing que Anthropic nombra incluyendo a Amazon, Microsoft y Google, y abrió un programa en HackerOne que invita a los investigadores a enviar los jailbreaks que descubran. Para un consejo, el detalle que conviene retener es simple: por primera vez un jailbreak tiene una nota que un no especialista puede leer.

Por que un número cambia la conversación del comprador

Un número de gravedad hace algo que una declaracion de seguridad nunca pudo. Traslada la pregunta del argumentario del proveedor al registro de riesgo del comprador. CVSS hizo exactamente esto con el software: en cuanto un fallo tenia una nota, los equipos de compras podian escribirla en contratos, las aseguradoras podian ponerle precio y los auditores podian comprobar si un proveedor cumplia un umbral declarado. CJS abre el mismo camino para los modelos de IA.

Para un dueño europeo, este es el primer artefacto que permite a un consejo hacer una pregunta concreta en lugar de una vaga. En vez de preguntar si un proveedor de modelos se toma en serio la seguridad, el consejo puede preguntar en que banda CJS pone su tope el proveedor y quien asígno esa banda. Esa pregunta encaja directo en deberes ya existentes. NIS2 obliga a los operadores en su ambito a gestiónar el riesgo de cadena de suministro y de tecnología de forma documentada, y DORA impone a las entidades financieras controles comparables sobre terceros de TIC. Una banda CJS es justo el tipo de entrada medible para el que se construyeron esos registros.

El efecto práctico es que la seguridad de la IA deja de ser un eslogan y pasa a ser una linea de contrato. Un dueño puede especificar que un modelo desplegado no supere una banda CJS nombrada para una clase definida de peticion, y exigir aviso si un jailbreak descubierto lo empujara más alla de esa linea. En Espana, el INCIBE aporta el marco familiar con sus guias de gestión de proveedores, que premian exactamente este control medible y documentado sobre un suministrador.

Nada de esto exige que una empresa se convierta en un laboratorio de investigacion de IA. Exige que el consejo trate el riesgo del modelo cómo ya trata cualquier otro riesgo tecnologico: nombrar el umbral, ponerlo por escrito y obligar al proveedor a cumplirlo.

Quien puntua al que puntua

Hay una debilidad estructural que los dueños deben ver con claridad antes de apoyarse en CJS. La escala la redacta el proveedor y hoy también se la autopuntua el proveedor. Anthropic escribio el marco y, para sus propios modelos, asígna las bandas. Es un punto de partida razonable para un estándar recien nacido, pero todavia no es un estándar de auditoria en el sentido que reconoceria un responsable de compras.

El riesgo es propio de una escala exponencial. Cuando cada banda se define cómo varias veces peor que la anterior, pequeñas decisiones de puntuacion mueven mucho el número final. Sin un puntuador independiente, existe un incentivo silencioso para que cualquier proveedor describa con prudencia sus propios hallazgos, y una escala de gravedad exponencial puede derivar de estándar de auditoria a gradiente de marketing. Esa es la unica cautela que un consejo debería llevar a cada conversación con un proveedor sobre CJS.

El remedio no es rechazar la escala sino cerrar el hueco que deja abierto. Los dueños deben exigir una atestáción CJS de un tercero, para que la banda que el proveedor afirma haya sido verificada por alguien que no vende el modelo. Deben escribir topes contractuales de CJS en vez de aceptar bandas autoreportadas cómo garantia. Y deben preguntar que organismo asígno una nota y contra que versión del marco, la misma diligencia que cualquier comprador serio aplica a una valoración CVSS o a un certificado ISO.

CJS es un avance genuino: da a los dueños una palabra que no tenian. Pero una escala de gravedad solo es tan fiable cómo la parte que asígna el número, y hasta que un puntuador independiente se situe junto al proveedor, la banda en el papel es una afirmacion, todavia no una garantia.