AI Economy

Los tokens de IA ya tienen hora punta

DeepSeek lanzará V4 a mediados de julio con la primera tarifa horaria en una API de IA: precios dobles en horario laboral chino. Por qué los tokens se vuelven un suministro y Europa gana ventaja horaria.

AI EconomyPor Servola Tech Desk2026-07-043 min de lectura

Asistido por IA, editado por personas. Editorial standards

Puntos clave

El 30 de junio de 2026 DeepSeek anunció el lanzamiento oficial de V4 para mediados de julio, introduciendo la primera tarifa horaria en una gran API de IA: el uso en las ventanas punta diarias de 9:00 a 12:00 y de 14:00 a 18:00 se factura al doble de la tarifa valle.
V4 llega con una ventana de contexto de 1 millón de tokens de serie en toda la gama, encabezada por V4-Pro, un modelo mixture-of-experts de 1,6 billones de parámetros con 49.000 millones activos, junto al ligero V4-Flash; los antiguos endpoints deepseek-chat y deepseek-reasoner se retiran tras el 24 de julio.
La tarifa por franjas importa la economía de la red eléctrica a la IA: es la admisión de que la capacidad de inferencia es finita y de que la demanda, no solo el consumo, fija ahora el precio.
Los compradores europeos ganan una ventaja horaria literal: las ventanas punta comunicadas corresponden a la madrugada y la mañana en la Europa central, dejando toda la tarde y la noche europeas en tarifa valle.

Qué anunció DeepSeek

El 30 de junio de 2026 DeepSeek comunicó que la versión oficial de V4 llegará a mediados de julio, graduando la vista previa disponible desde el 24 de abril, según informó TechNode. La novedad principal no es un benchmark. Es un mecanismo de precios: por primera vez en una gran API de IA, los tokens costarán distinto según la hora del día, con tarifas que se duplican en las ventanas diarias de 9:00 a 12:00 y de 14:00 a 18:00, el horario laboral chino, y la tarifa valle sin cambios.

Los modelos en sí son de peso: la ventana de contexto de 1 millón de tokens pasa a ser estándar en toda la gama, V4-Pro es un diseño mixture-of-experts de 1,6 billones de parámetros con 49.000 millones activos, y V4-Flash un modelo de 284.000 millones con 13.000 millones activos. La documentación de DeepSeek añade una fecha límite dura: los endpoints antiguos deepseek-chat y deepseek-reasoner quedan inaccesibles tras el 24 de julio, así que las integraciones existentes deben migrar, les guste o no el nuevo contador.

Por qué un laboratorio pone precios como una eléctrica

La tarifa por franjas existe en un solo tipo de mercado: capacidad fija, demanda fluctuante. Las redes eléctricas la inventaron porque almacenar era caro y la punta de demanda dimensionaba todo el sistema. Que un laboratorio de IA recurra ahora a la misma herramienta es una admisión que vale más que cualquier presentación: la capacidad de inferencia es finita, las GPU no hacen cola educadamente, y el token marginal de las 10:30 de un martes le cuesta al operador más que el mismo token a medianoche.

También rompe una suposición cómoda. El sector lleva dos años diciendo que la inteligencia se abarata cada trimestre. Por token, sigue siendo cierto. Pero el nuevo mecanismo significa que el precio de la misma petición ya no es una constante, y quien presupuestó con costes unitarios planos posee ahora un pequeño problema de trading energético. En cuanto un proveedor demuestra que los clientes aceptan precios de demanda, los demás tienen todos los incentivos para seguirle.

La ventaja horaria europea

Para los compradores europeos, la geografía de las ventanas punta es inusualmente amable. Las horas punta comunicadas caen entre las 3:00 y las 6:00 y entre las 8:00 y las 12:00, hora de verano de la Europa central, la de Madrid o Barcelona. Desde el mediodía, toda la tarde y la noche laborales corren en tarifa valle. Una empresa europea que use DeepSeek paga la tarifa rebajada durante la mayor parte de su jornada, mientras un competidor chino paga el doble durante la suya.

El movimiento práctico es arquitectónico, no contractual: separar las llamadas críticas en latencia de las aplazables. Los procesos nocturnos por lotes, los embeddings, la reindexación, las evaluaciones y los informes pueden programarse en ventanas valle con una cola y una entrada de cron. Esa disciplina merece construirse aunque nunca se use DeepSeek, porque la tarifa horaria ya está demostrada, y la versión de su propio proveedor está a una reunión de producto de distancia.

Qué hacer antes de mediados de julio

Tres acciones caben en las dos semanas previas al lanzamiento. Primera: quien ejecute los endpoints en retirada deepseek-chat o deepseek-reasoner necesita un plan de migración antes del 24 de julio, probado, no planeado. Segunda: los equipos que usen cualquier API de IA medida deberían etiquetar ya sus cargas como aplazables o interactivas, para que programarlas sea luego un cambio de configuración. Tercera: quien gestione el presupuesto de IA debería modelar el gasto con precio de dos tramos y hacer a cada proveedor una pregunta en la renovación: se compromete a precios independientes de la hora durante la vigencia del contrato, o no. La respuesta, en cualquier sentido, es información.

Leer a continuación: Nvidia ya cobra renta por sus propios chips · OpenAI ofrece una participación a Washington

Preguntas frecuentes

Cuándo se lanza oficialmente DeepSeek V4 y qué cambia?

DeepSeek anunció el 30 de junio que la versión oficial de V4 llega a mediados de julio de 2026, con ventana de contexto de 1 millón de tokens de serie y tarifa punta en la API: precios dobles en las ventanas diarias de 9:00 a 12:00 y de 14:00 a 18:00, horario laboral chino.

Qué pasa con los endpoints existentes de DeepSeek?

Según la documentación de DeepSeek, los endpoints antiguos deepseek-chat y deepseek-reasoner quedan inaccesibles tras el 24 de julio de 2026, así que las integraciones construidas sobre ellos deben migrar a la gama V4.

Cómo deberían responder las empresas europeas a la tarifa punta de IA?

Aprovechando el desfase horario: las puntas comunicadas terminan hacia el mediodía de la Europa central, así que conviene programar las cargas aplazables, como lotes y embeddings, en la tarde y la noche europeas, y preguntar a cada proveedor si sus precios seguirán siendo independientes de la hora.

Toda infraestructura que importa acaba con precios de hora punta: las carreteras, la electricidad y ahora la inteligencia. Los proveedores le están diciendo, en el lenguaje más claro que tiene el comercio, que el cómputo escasea y la demanda fija el precio. Las empresas que diseñen para ese hecho ahora, con colas, calendarios y niveles de carga, tratarán el recargo como una fábrica trata la tarifa nocturna: como un coste ajeno.

DeepSeek AI Pricing API Inference Cloud Costs AI Economy

Más del Servola Journal

AI Economy

Nvidia ya cobra renta por sus propios chips

El 1 de julio de 2026 Nvidia presentó reparto de ingresos y apoyo crediticio para nubes de IA: vende las GPU y se queda una parte del alquiler. Qué implica para el precio del cómputo.

3 min de lectura

AI Economy

OpenAI ofrece una participación a Washington

Sam Altman propone entregar cerca del 5 por ciento de OpenAI, unos 42.600 millones de dólares, a un fondo soberano de EE. UU. Qué significa un accionista estatal para las empresas europeas.

3 min de lectura

AI Economy

Europa construye el robot, América lo paga

NEURA Robotics captó hasta 1.400 millones de dólares el 10 de junio de 2026 y la robótica fue el sector más financiado de Europa. Por qué el dinero se movió a la IA encarnada y qué significa para los propietarios.

3 min de lectura1 vistas

Servola

Servola ayuda a propietarios a construir arquitecturas de coste de IA que sobreviven a los cambios de precios de los proveedores en lugar de absorberlos.

Solicitar una presentación privada Sobre Servola →

Servola es asesoría tecnológica para un reducido número de familias y family offices. Cuando una decisión no se puede delegar, nos sentamos de su lado de la mesa.

Servola Systems GmbH · Ludwigshafen, Germany · [email protected]

← Todos los artículos