Wat OpenAI werkelijk aankondigde

Rond 1 juli 2026 zei OpenAI dat het zijn nieuwe vlaggenschipmodel, GPT-5.6 Sol, vanaf juli op wafer-hardware van Cerebras zou draaien tot 750 tokens per seconde. De toegang blijft aanvankelijk beperkt tot geselecteerde klanten en verruimt naarmate de capaciteit groeit. Dit is geen onderzoeksdemo. Het is een productietoezegging aan een specifiek stuk silicium.

Erachter ligt een bindende Master Relationship Agreement van meer dan 20 miljard USD, die OpenAI en Cerebras hebben onthuld. Het dekt 750 megawatt aan wafer-inferentiecapaciteit van 2026 tot 2028, met voorzieningen om uit te breiden naar 2 gigawatt tegen 2030. GPT-5.6 komt in drie maten, geprijsd per miljoen tokens: Sol op 5 USD invoer en 30 USD uitvoer, oftewel ongeveer EUR 4,60 in en EUR 27,60 uit; Terra op 2,50 en 15; en Luna op 1 en 6.

Het getal dat telt voor een eigenaar is niet de modelnaam. Het zijn 750 tokens per seconde, geleverd door een genoemde leverancier, onder een genoemd contract, voor een genoemde termijn.

Snelheid, niet alleen intelligentie, is nu het product

Een model van topklasse op een traditioneel GPU-cluster streamt met ongeveer 40 tot 120 tokens per seconde. Cerebras onthulde dat zijn wafer-aanpak dezelfde modelgewichten tot ongeveer 15 keer sneller uitvoert dan GPU-gebaseerde systemen, door rekenkracht, geheugen en bandbreedte op een enkele wafer te plaatsen in plaats van ze over vele chips te verdelen.

Dat verschil bepaalt welke producten bouwbaar zijn. Bij 40 tot 120 tokens per seconde hapert een real-time spraakagent, loopt een live code-reviewer achter de ontwikkelaar aan, en voelt interactieve documentanalyse als wachten. Bij 750 tokens per seconde worden die latentiegebonden workloads haalbaar. De upgrade is geen slimmer antwoord, maar een antwoord dat snel genoeg is om binnen een lopende werkstroom te zitten.

De snelheid woont op een enkel adres

Hier zit het concentratieprobleem. Die 750 tokens per seconde zijn geen eigenschap van het model in het abstracte. Ze zijn een eigenschap van het wafer-silicium van een enkele leverancier, dat een model draait dat zelf onder Amerikaanse overheidstoegangsrestricties valt, in beperkte preview voor ongeveer 20 goedgekeurde bedrijven. Verander een van die drie dingen, en de snelheid waaromheen u ontwierp verdwijnt.

Voor een Nederlands bedrijf stapelt dit drie afhankelijkheden die vroeger gescheiden waren. Het model is Amerikaans en exportgecontroleerd. De chip is de propriety wafer van een enkele Amerikaanse leverancier. Het doorvoerplafond wordt gezet door een contract waarbij u geen partij bent. Soevereine inferentie was ooit een vraag over op wiens chips u draait. Voor een kleinere markt is het nu ook een vraag over wiens tokens per seconde u huurt, en vandaag loopt het antwoord door een enkele Amerikaanse toeleveringsketen.

Maak van tokens per seconde een geprijsde afhankelijkheid

Behandel inferentiesnelheid zoals u al elke enkelvoudige toelevering behandelt: als een geprijsde, betwistbare afhankelijkheid, niet als een gratis upgrade. De eerste taak is meten. Ken het tokens-per-seconde plafond dat uw latentiegebonden functies werkelijk nodig hebben, en het plafond dat uw huidige leverancier u geeft. Als een functie alleen boven een bepaalde snelheid werkt, is die snelheid nu deel van uw productspecificatie.

De tweede taak is een tweede weg openhouden. Wijs ten minste een alternatief aan dat dezelfde workload kan dragen, zelfs op lagere snelheid, zodat een contractclausule, een exportregel of een capaciteitslimiet bij een leverancier niet stilletjes een levend product uitschakelt. Voor eigenaren in kleinere markten verdient hier het gesprek over soevereine inferentie zijn plaats: niet als politiek, maar als continuiteitsplanning voor een doorvoerplafond dat u niet beheert.

De winnaars van de volgende fase houden niet simpelweg het slimste model. Ze kennen hun tokens-per-seconde getal, weten wie het beheert, en hebben de kosten van het verliezen ervan al geprijsd.