Qué anunció realmente OpenAI

Alrededor del 1 de julio de 2026, OpenAI dijo que ejecutará su nuevo modelo insignia, GPT-5.6 Sol, sobre hardware de oblea de Cerebras a hasta 750 tokens por segundo, comenzando en julio. El acceso queda al principio limitado a clientes selectos y se ampliará a medida que crezca la capacidad. No es una demostración de investigación. Es un compromiso de producción con una pieza concreta de silicio.

Detrás hay un Acuerdo Marco de Relación vinculante por más de 20.000 millones de USD, que OpenAI y Cerebras han revelado. Cubre 750 megavatios de capacidad de inferencia de oblea de 2026 a 2028, con previsiones de ampliación a 2 gigavatios para 2030. GPT-5.6 llega en tres tamaños, con precio por millón de tokens: Sol a 5 USD de entrada y 30 USD de salida, es decir, unos EUR 4,60 de entrada y EUR 27,60 de salida; Terra a 2,50 y 15; y Luna a 1 y 6.

La cifra que importa a un propietario no es el nombre del modelo. Son 750 tokens por segundo, entregados por un proveedor con nombre, bajo un contrato con nombre, por un plazo con nombre.

La velocidad, y no solo la inteligencia, es ahora el producto

Un modelo de primera línea sobre un clúster de GPU tradicional transmite a unos 40 a 120 tokens por segundo. Cerebras reveló que su enfoque de oblea ejecuta los mismos pesos del modelo hasta unas 15 veces más rápido que los sistemas basados en GPU, al colocar cómputo, memoria y ancho de banda en una sola oblea en lugar de repartirlos entre muchos chips.

Esa diferencia decide qué productos son construibles. A 40 a 120 tokens por segundo, un agente de voz en tiempo real se entrecorta, un revisor de código en vivo se rezaga tras el desarrollador y el análisis interactivo de documentos se siente como esperar. A 750 tokens por segundo, esas cargas limitadas por latencia se vuelven viables. La mejora no es una respuesta más inteligente, sino una respuesta lo bastante rápida para vivir dentro de un flujo de trabajo activo.

La velocidad vive en una sola dirección

Aquí está el problema de concentración. Esos 750 tokens por segundo no son una propiedad del modelo en abstracto. Son una propiedad del silicio de oblea de un único proveedor, ejecutando un modelo que a su vez está bajo restricciones de acceso del gobierno de EE. UU., en vista previa limitada a unas 20 compañías aprobadas. Cambie cualquiera de esas tres cosas y la velocidad sobre la que diseñó desaparece.

Para una compañía española, esto apila tres dependencias que antes eran separadas. El modelo es estadounidense y está controlado a la exportación. El chip es la oblea propietaria de un único proveedor estadounidense. El techo de rendimiento lo fija un contrato del que usted no es parte. La inferencia soberana era antes una cuestión sobre en qué chips corre. Ahora es también una cuestión sobre de quién son los tokens por segundo que alquila, y hoy la respuesta atraviesa una sola cadena de suministro estadounidense.

Convierta los tokens por segundo en una dependencia con precio

Trate la velocidad de inferencia como ya trata cualquier insumo de fuente única: como una dependencia con precio y disputable, no como una mejora gratuita. La primera tarea es medir. Conozca el techo de tokens por segundo que sus funciones limitadas por latencia realmente necesitan, y el techo que su proveedor actual le da. Si una función solo opera por encima de cierta velocidad, esa velocidad es ya parte de su especificación de producto.

La segunda tarea es mantener una segunda vía. Identifique al menos una alternativa capaz de sostener la misma carga, incluso a menor velocidad, para que una cláusula contractual, una regla de exportación o un límite de capacidad en un proveedor no apaguen en silencio un producto vivo. Para los propietarios europeos, aquí la conversación sobre inferencia soberana se gana su lugar: no como política, sino como planificación de continuidad para un techo de rendimiento que usted no controla.

Los ganadores de la próxima fase no solo tendrán el modelo más inteligente. Conocerán su cifra de tokens por segundo, sabrán quién la controla y ya habrán puesto precio al coste de perderla.