Ce que DeepSeek a annoncé

Le 30 juin 2026, DeepSeek a indiqué que la version officielle de V4 sortira à la mi-juillet, faisant passer en production l'aperçu disponible depuis le 24 avril, comme le rapporte TechNode. La nouveauté principale n'est pas un benchmark. C'est un mécanisme de prix : pour la première fois sur une grande API d'IA, les tokens coûteront différemment selon l'heure, avec des tarifs doublés dans les fenêtres quotidiennes de 9h00 à 12h00 et de 14h00 à 18h00, les heures de bureau chinoises, le tarif creux restant inchangé.

Les modèles eux-mêmes sont conséquents : la fenêtre de contexte d'un million de tokens devient le standard de toute la gamme, V4-Pro est une architecture mixture-of-experts de 1 600 milliards de paramètres dont 49 milliards actifs, V4-Flash un modèle de 284 milliards dont 13 milliards actifs. La documentation de DeepSeek ajoute une échéance dure : les anciens endpoints deepseek-chat et deepseek-reasoner deviennent inaccessibles après le 24 juillet, les intégrations existantes doivent donc migrer, que le nouveau compteur leur plaise ou non.

Pourquoi un laboratoire tarifie comme un électricien

La tarification horaire existe dans un seul type de marché : capacité fixe, demande fluctuante. Les réseaux électriques l'ont inventée parce que le stockage coûtait cher et que la pointe de demande dimensionnait tout le système. Qu'un laboratoire d'IA saisisse aujourd'hui le même outil est un aveu qui vaut plus que n'importe quelle keynote : la capacité d'inférence est finie, les GPU ne font pas la queue poliment, et le token marginal de 10h30 un mardi coûte plus cher à l'opérateur que le même token à minuit.

Cela brise aussi une hypothèse confortable. Le secteur répète depuis deux ans que l'intelligence devient moins chère chaque trimestre. Par token, cela reste vrai. Mais le nouveau mécanisme signifie que le prix d'une même requête n'est plus une constante, et celui qui a budgété des coûts unitaires plats possède désormais un petit problème de trading énergétique. Dès qu'un fournisseur démontre que les clients acceptent les prix de pointe, tous les autres ont intérêt à suivre.

L'avantage horaire européen

Pour les acheteurs européens, la géographie des fenêtres de pointe est inhabituellement clémente. Les heures de pointe annoncées tombent entre 3h00 et 6h00 et entre 8h00 et 12h00, heure d'été d'Europe centrale, celle de Paris ou de Lyon. À partir de midi, tout l'après-midi et la soirée de travail tournent en tarif creux. Une entreprise européenne utilisant DeepSeek paie le tarif réduit pendant l'essentiel de sa journée, tandis qu'un concurrent chinois paie le double pendant la sienne.

Le geste pratique est architectural, pas contractuel : séparer les appels critiques en latence des appels différables. Les traitements nocturnes par lots, les embeddings, la réindexation, les évaluations et les rapports peuvent être programmés dans les fenêtres creuses avec une file d'attente et une entrée cron. Cette discipline mérite d'être construite même sans jamais utiliser DeepSeek, car la tarification horaire est désormais démontrée, et la version de votre propre fournisseur n'est qu'à une réunion produit de distance.

Que faire avant la mi-juillet

Trois actions tiennent dans les deux semaines avant la sortie. Un : quiconque exploite les endpoints en retrait deepseek-chat ou deepseek-reasoner a besoin d'un plan de migration avant le 24 juillet, testé, pas seulement écrit. Deux : les équipes utilisant n'importe quelle API d'IA au compteur devraient étiqueter dès maintenant leurs charges comme différables ou interactives, pour que la planification ne soit plus tard qu'un changement de configuration. Trois : le responsable du budget IA devrait modéliser la dépense sous un prix à deux paliers et poser une question à chaque fournisseur au renouvellement : vous engagez-vous sur des prix indépendants de l'heure pour la durée du contrat, ou non. La réponse, dans les deux cas, est une information.