AI Economy

Les tokens d'IA ont maintenant une heure de pointe

DeepSeek lancera V4 à la mi-juillet avec la première tarification horaire d'une API d'IA : tarifs doublés pendant les heures de bureau chinoises. Pourquoi les tokens deviennent un fluide et l'Europe gagne un avantage horaire.

AI EconomyPar Servola Tech Desk2026-07-043 min de lecture

Assisté par IA, édité par des humains. Editorial standards

Les tokens d'IA ont maintenant une heure de pointe

Points clés

Le 30 juin 2026, DeepSeek a annoncé la sortie officielle de V4 pour la mi-juillet, introduisant la première tarification horaire sur une grande API d'IA : l'usage dans les fenêtres de pointe quotidiennes de 9h00 à 12h00 et de 14h00 à 18h00 est facturé au double du tarif creux.
V4 arrive avec une fenêtre de contexte d'un million de tokens en série sur toute la gamme, menée par V4-Pro, un modèle mixture-of-experts de 1 600 milliards de paramètres dont 49 milliards actifs, aux côtés du léger V4-Flash ; les anciens endpoints deepseek-chat et deepseek-reasoner sont retirés après le 24 juillet.
La tarification horaire importe l'économie du réseau électrique dans l'IA : c'est l'aveu que la capacité d'inférence est finie et que la demande, pas seulement l'usage, fixe désormais le prix.
Les acheteurs européens gagnent un avantage horaire littéral : les fenêtres de pointe annoncées correspondent au petit matin et à la matinée en Europe centrale, laissant tout l'après-midi et la soirée européens en tarif creux.

Ce que DeepSeek a annoncé

Le 30 juin 2026, DeepSeek a indiqué que la version officielle de V4 sortira à la mi-juillet, faisant passer en production l'aperçu disponible depuis le 24 avril, comme le rapporte TechNode. La nouveauté principale n'est pas un benchmark. C'est un mécanisme de prix : pour la première fois sur une grande API d'IA, les tokens coûteront différemment selon l'heure, avec des tarifs doublés dans les fenêtres quotidiennes de 9h00 à 12h00 et de 14h00 à 18h00, les heures de bureau chinoises, le tarif creux restant inchangé.

Les modèles eux-mêmes sont conséquents : la fenêtre de contexte d'un million de tokens devient le standard de toute la gamme, V4-Pro est une architecture mixture-of-experts de 1 600 milliards de paramètres dont 49 milliards actifs, V4-Flash un modèle de 284 milliards dont 13 milliards actifs. La documentation de DeepSeek ajoute une échéance dure : les anciens endpoints deepseek-chat et deepseek-reasoner deviennent inaccessibles après le 24 juillet, les intégrations existantes doivent donc migrer, que le nouveau compteur leur plaise ou non.

Pourquoi un laboratoire tarifie comme un électricien

La tarification horaire existe dans un seul type de marché : capacité fixe, demande fluctuante. Les réseaux électriques l'ont inventée parce que le stockage coûtait cher et que la pointe de demande dimensionnait tout le système. Qu'un laboratoire d'IA saisisse aujourd'hui le même outil est un aveu qui vaut plus que n'importe quelle keynote : la capacité d'inférence est finie, les GPU ne font pas la queue poliment, et le token marginal de 10h30 un mardi coûte plus cher à l'opérateur que le même token à minuit.

Cela brise aussi une hypothèse confortable. Le secteur répète depuis deux ans que l'intelligence devient moins chère chaque trimestre. Par token, cela reste vrai. Mais le nouveau mécanisme signifie que le prix d'une même requête n'est plus une constante, et celui qui a budgété des coûts unitaires plats possède désormais un petit problème de trading énergétique. Dès qu'un fournisseur démontre que les clients acceptent les prix de pointe, tous les autres ont intérêt à suivre.

L'avantage horaire européen

Pour les acheteurs européens, la géographie des fenêtres de pointe est inhabituellement clémente. Les heures de pointe annoncées tombent entre 3h00 et 6h00 et entre 8h00 et 12h00, heure d'été d'Europe centrale, celle de Paris ou de Lyon. À partir de midi, tout l'après-midi et la soirée de travail tournent en tarif creux. Une entreprise européenne utilisant DeepSeek paie le tarif réduit pendant l'essentiel de sa journée, tandis qu'un concurrent chinois paie le double pendant la sienne.

Le geste pratique est architectural, pas contractuel : séparer les appels critiques en latence des appels différables. Les traitements nocturnes par lots, les embeddings, la réindexation, les évaluations et les rapports peuvent être programmés dans les fenêtres creuses avec une file d'attente et une entrée cron. Cette discipline mérite d'être construite même sans jamais utiliser DeepSeek, car la tarification horaire est désormais démontrée, et la version de votre propre fournisseur n'est qu'à une réunion produit de distance.

Que faire avant la mi-juillet

Trois actions tiennent dans les deux semaines avant la sortie. Un : quiconque exploite les endpoints en retrait deepseek-chat ou deepseek-reasoner a besoin d'un plan de migration avant le 24 juillet, testé, pas seulement écrit. Deux : les équipes utilisant n'importe quelle API d'IA au compteur devraient étiqueter dès maintenant leurs charges comme différables ou interactives, pour que la planification ne soit plus tard qu'un changement de configuration. Trois : le responsable du budget IA devrait modéliser la dépense sous un prix à deux paliers et poser une question à chaque fournisseur au renouvellement : vous engagez-vous sur des prix indépendants de l'heure pour la durée du contrat, ou non. La réponse, dans les deux cas, est une information.

Questions fréquentes

Quand DeepSeek V4 sort-il officiellement et qu'est-ce qui change ?

DeepSeek a annoncé le 30 juin que la version officielle de V4 arrive à la mi-juillet 2026, avec une fenêtre de contexte d'un million de tokens en série et des prix de pointe sur l'API : tarifs doublés dans les fenêtres quotidiennes de 9h00 à 12h00 et de 14h00 à 18h00, heures de bureau chinoises.

Qu'advient-il des endpoints DeepSeek existants ?

Selon la documentation DeepSeek, les anciens endpoints deepseek-chat et deepseek-reasoner deviennent inaccessibles après le 24 juillet 2026 ; les intégrations construites dessus doivent migrer vers la gamme V4.

Comment les entreprises européennes devraient-elles réagir aux prix de pointe de l'IA ?

En exploitant le décalage horaire : les pointes annoncées se terminent vers midi en Europe centrale. Programmez les charges différables, lots et embeddings, dans l'après-midi et la nuit européens, et demandez à chaque fournisseur si ses prix resteront indépendants de l'heure.

Toute infrastructure qui compte finit par avoir des prix d'heure de pointe : les routes, l'électricité, et maintenant l'intelligence. Les fournisseurs vous disent, dans le langage le plus clair que connaisse le commerce, que le calcul est rare et que la demande fixe le prix. Les entreprises qui architecturent pour ce fait dès maintenant, avec files d'attente, calendriers et niveaux de charge, traiteront la majoration comme une usine traite le tarif de nuit : comme le coût des autres.

DeepSeek AI Pricing API Inference Cloud Costs AI Economy

Plus dans le Servola Journal

AI Economy

Nvidia touche désormais un loyer sur ses puces

Le 1 juillet 2026, Nvidia a dévoilé partage de revenus et soutien au crédit pour les clouds IA : il vend les GPU puis garde une part du loyer. Ce que cela change pour le prix du calcul.

3 min de lecture

AI Economy

OpenAI offre une part à Washington

Sam Altman propose de céder environ 5 pour cent d'OpenAI, soit quelque 42,6 milliards de dollars, à un fonds souverain américain. Ce qu'un actionnaire étatique change pour les entreprises européennes.

3 min de lecture

AI Economy

L'Europe construit le robot, l'Amérique paie

NEURA Robotics a levé jusqu'à 1,4 milliard de dollars le 10 juin 2026 et la robotique est devenue le secteur le plus financé d'Europe. Pourquoi l'argent s'est déplacé vers l'IA incarnée et ce que cela signifie pour les dirigeants.

3 min de lecture1 vues

Servola

Servola aide les propriétaires à bâtir des architectures de coûts d'IA qui survivent aux changements tarifaires des fournisseurs au lieu de les absorber.

Demander une mise en relation privée À propos de Servola →

Servola est un conseil technologique pour un petit nombre de familles et de family offices. Lorsqu'une décision ne peut pas être déléguée, nous siégeons de votre côté de la table.

Servola Systems GmbH · Ludwigshafen, Germany · [email protected]

← Tous les articles