Ce qu'OpenAI a réellement annoncé
Autour du 1er juillet 2026, OpenAI a déclaré qu'il ferait tourner son nouveau modèle phare, GPT-5.6 Sol, sur du matériel wafer de Cerebras jusqu'à 750 tokens par seconde, à partir de juillet. L'accès reste d'abord limité à des clients sélectionnés et s'élargira à mesure que la capacité grandit. Ce n'est pas une démonstration de recherche. C'est un engagement de production sur une pièce précise de silicium.
Derrière se tient un Master Relationship Agreement contraignant de plus de 20 milliards USD, qu'OpenAI et Cerebras ont divulgué. Il couvre 750 mégawatts de capacité d'inférence wafer de 2026 à 2028, avec des dispositions d'extension à 2 gigawatts d'ici 2030. GPT-5.6 se décline en trois tailles, tarifées au million de tokens: Sol à 5 USD en entrée et 30 USD en sortie, soit environ EUR 4,60 en entrée et EUR 27,60 en sortie; Terra à 2,50 et 15; et Luna à 1 et 6.
Le chiffre qui compte pour un propriétaire n'est pas le nom du modèle. Ce sont 750 tokens par seconde, livrés par un fournisseur nommé, sous un contrat nommé, pour une durée nommée.
La vitesse, et pas seulement l'intelligence, est désormais le produit
Un modèle de premier plan sur un cluster GPU classique diffuse à environ 40 à 120 tokens par seconde. Cerebras a divulgué que son approche wafer exécute les mêmes poids du modèle jusqu'à environ 15 fois plus vite que les systèmes à base de GPU, en plaçant calcul, mémoire et bande passante sur un seul wafer plutôt que réparties sur de nombreuses puces.
Cette différence décide quels produits sont constructibles. À 40 à 120 tokens par seconde, un agent vocal en temps réel hache, un relecteur de code en direct traîne derrière le développeur, et l'analyse interactive de documents ressemble à de l'attente. À 750 tokens par seconde, ces charges liées à la latence deviennent viables. La mise à niveau n'est pas une réponse plus intelligente, mais une réponse assez rapide pour tenir dans un flux de travail actif.
La vitesse habite à une seule adresse
Voici le problème de concentration. Ces 750 tokens par seconde ne sont pas une propriété du modèle dans l'abstrait. Ce sont une propriété du silicium wafer d'un seul fournisseur, faisant tourner un modèle lui-même soumis à des restrictions d'accès du gouvernement américain, en aperçu limité à environ 20 entreprises agréées. Changez l'une de ces trois choses, et la vitesse autour de laquelle vous avez conçu disparaît.
Pour une entreprise française, cela empile trois dépendances autrefois séparées. Le modèle est américain et sous contrôle des exportations. La puce est le wafer propriétaire d'un unique fournisseur américain. Le plafond de débit est fixé par un contrat auquel vous n'êtes pas partie. L'inférence souveraine était jadis une question de savoir sur quelles puces vous tournez. Au titre de la souveraineté numérique, c'est aussi désormais une question de savoir à qui sont les tokens par seconde que vous louez, et aujourd'hui la réponse passe par une seule chaîne d'approvisionnement américaine.
Faites des tokens par seconde une dépendance chiffrée
Traitez la vitesse d'inférence comme vous traitez déjà tout intrant à source unique: une dépendance chiffrée et contestable, non une mise à niveau gratuite. La première tâche est de mesurer. Connaissez le plafond de tokens par seconde dont vos fonctions liées à la latence ont réellement besoin, et le plafond que votre fournisseur actuel vous donne. Si une fonction n'opère qu'au-dessus d'une certaine vitesse, cette vitesse fait désormais partie de votre spécification produit.
La deuxième tâche est de garder une seconde voie. Repérez au moins une alternative capable de porter la même charge, même à vitesse moindre, afin qu'une clause contractuelle, une règle d'exportation ou une limite de capacité chez un fournisseur n'éteignent pas en silence un produit vivant. Pour les propriétaires européens, c'est ici que la conversation sur l'inférence souveraine gagne sa place: non comme politique, mais comme planification de continuité pour un plafond de débit que vous ne contrôlez pas.
Les gagnants de la prochaine phase ne détiendront pas seulement le modèle le plus intelligent. Ils connaîtront leur chiffre de tokens par seconde, sauront qui le contrôle et auront déjà chiffré le coût de le perdre.
À lire ensuite: L'énergie, nouvelle limite de l'IA · Votre dépendance au cloud est désormais un risque régulé. La plupart des entreprises ne voient même pas la leur.



