Infrastructuur

OpenAI koopt zijn snelheid bij een enkele chipmaker

OpenAI draait GPT-5.6 Sol op wafer-hardware van Cerebras tot 750 tokens per seconde. Waarom inferentiedoorvoer, niet modelkwaliteit, nu de betwiste variabele is voor eigenaren.

InfrastructuurDoor Servola Tech Desk2026-07-044 min leestijd4 weergaven

AI-ondersteund, door mensen geredigeerd. Redactionele richtlijnen

OpenAI koopt zijn snelheid bij een enkele chipmaker

Wat OpenAI werkelijk aankondigde

Rond 1 juli 2026 zei OpenAI dat het zijn nieuwe vlaggenschipmodel, GPT-5.6 Sol, vanaf juli op wafer-hardware van Cerebras zou draaien tot 750 tokens per seconde. De toegang blijft aanvankelijk beperkt tot geselecteerde klanten en verruimt naarmate de capaciteit groeit. Dit is geen onderzoeksdemo. Het is een productietoezegging aan een specifiek stuk silicium.

Erachter ligt een bindende Master Relationship Agreement van meer dan 20 miljard USD, die OpenAI en Cerebras hebben onthuld. Het dekt 750 megawatt aan wafer-inferentiecapaciteit van 2026 tot 2028, met voorzieningen om uit te breiden naar 2 gigawatt tegen 2030. GPT-5.6 komt in drie maten, geprijsd per miljoen tokens: Sol op 5 USD invoer en 30 USD uitvoer, oftewel ongeveer EUR 4,60 in en EUR 27,60 uit; Terra op 2,50 en 15; en Luna op 1 en 6.

Het getal dat telt voor een eigenaar is niet de modelnaam. Het zijn 750 tokens per seconde, geleverd door een genoemde leverancier, onder een genoemd contract, voor een genoemde termijn.

Snelheid, niet alleen intelligentie, is nu het product

Een model van topklasse op een traditioneel GPU-cluster streamt met ongeveer 40 tot 120 tokens per seconde. Cerebras onthulde dat zijn wafer-aanpak dezelfde modelgewichten tot ongeveer 15 keer sneller uitvoert dan GPU-gebaseerde systemen, door rekenkracht, geheugen en bandbreedte op een enkele wafer te plaatsen in plaats van ze over vele chips te verdelen.

Dat verschil bepaalt welke producten bouwbaar zijn. Bij 40 tot 120 tokens per seconde hapert een real-time spraakagent, loopt een live code-reviewer achter de ontwikkelaar aan, en voelt interactieve documentanalyse als wachten. Bij 750 tokens per seconde worden die latentiegebonden workloads haalbaar. De upgrade is geen slimmer antwoord, maar een antwoord dat snel genoeg is om binnen een lopende werkstroom te zitten.

De snelheid woont op een enkel adres

Hier zit het concentratieprobleem. Die 750 tokens per seconde zijn geen eigenschap van het model in het abstracte. Ze zijn een eigenschap van het wafer-silicium van een enkele leverancier, dat een model draait dat zelf onder Amerikaanse overheidstoegangsrestricties valt, in beperkte preview voor ongeveer 20 goedgekeurde bedrijven. Verander een van die drie dingen, en de snelheid waaromheen u ontwierp verdwijnt.

Voor een Nederlands bedrijf stapelt dit drie afhankelijkheden die vroeger gescheiden waren. Het model is Amerikaans en exportgecontroleerd. De chip is de propriety wafer van een enkele Amerikaanse leverancier. Het doorvoerplafond wordt gezet door een contract waarbij u geen partij bent. Soevereine inferentie was ooit een vraag over op wiens chips u draait. Voor een kleinere markt is het nu ook een vraag over wiens tokens per seconde u huurt, en vandaag loopt het antwoord door een enkele Amerikaanse toeleveringsketen.

Maak van tokens per seconde een geprijsde afhankelijkheid

Behandel inferentiesnelheid zoals u al elke enkelvoudige toelevering behandelt: als een geprijsde, betwistbare afhankelijkheid, niet als een gratis upgrade. De eerste taak is meten. Ken het tokens-per-seconde plafond dat uw latentiegebonden functies werkelijk nodig hebben, en het plafond dat uw huidige leverancier u geeft. Als een functie alleen boven een bepaalde snelheid werkt, is die snelheid nu deel van uw productspecificatie.

De tweede taak is een tweede weg openhouden. Wijs ten minste een alternatief aan dat dezelfde workload kan dragen, zelfs op lagere snelheid, zodat een contractclausule, een exportregel of een capaciteitslimiet bij een leverancier niet stilletjes een levend product uitschakelt. Voor eigenaren in kleinere markten verdient hier het gesprek over soevereine inferentie zijn plaats: niet als politiek, maar als continuiteitsplanning voor een doorvoerplafond dat u niet beheert.

De winnaars van de volgende fase houden niet simpelweg het slimste model. Ze kennen hun tokens-per-seconde getal, weten wie het beheert, en hebben de kosten van het verliezen ervan al geprijsd.

Lees hierna: Stroom is de nieuwe grens voor AI · Uw cloudafhankelijkheid is nu een gereguleerd risico. De meeste bedrijven kunnen de hunne niet eens zien.

Veelgestelde vragen

Waarom doen 750 tokens per seconde er meer toe dan een slimmer model?

Omdat ze veranderen wat u kunt bouwen. Veel agentische producten, zoals real-time spraakagenten en live code-review, worden begrensd door latentie, niet door intelligentie. Een model op 40 tot 120 tokens per seconde draagt ze niet vloeiend, 750 tokens per seconde wel. Snelheid wordt deel van de productspecificatie, geen achtergronddetail.

Wat is het concentratierisico voor een Nederlandse of Europese eigenaar?

De snelheid hangt aan drie Amerikaanse dingen tegelijk: een exportgecontroleerd model, de proprietaire wafer van een enkele leverancier en een contract waarbij u geen partij bent. Als een ervan verandert, kan de doorvoer waaromheen u bouwde verdwijnen. Het is een enkele toeleveringsketen die een last draagt die vroeger verdeeld was.

Wat zou een eigenaar hier nu aan moeten doen?

Meet het tokens-per-seconde plafond dat uw functies nodig hebben en dat wat uw leverancier geeft, en houd ten minste een tweede weg open die dezelfde workload kan dragen, zelfs op lagere snelheid. Behandel inferentiedoorvoer als een geprijsde afhankelijkheid waar u omheen plant, niet als een gratis upgrade die u aanneemt.

De grens loopt niet langer alleen langs het slimste model. Hij loopt langs wie de snelheid bezit, en of u een manier hebt om door te werken wanneer die snelheid niet de uwe is om te commanderen.

Infrastructure Inference Cerebras OpenAI Wafer-Scale Compute

Meer uit het Servola Journal

Infrastructuur

Stroom is de nieuwe grens voor AI

De bindende beperking voor AI in Europa zijn niet langer chips of modellen. Het is elektriciteit en een netwachtrij van jaren. Wat dat betekent voor uw AI-plan.

3 min leestijd

Infrastructuur

Uw cloudafhankelijkheid is nu een gereguleerd risico. De meeste bedrijven kunnen de hunne niet eens zien.

Het European Technological Sovereignty Package van 2026 en de Cloud and AI Development Act maken afhankelijkheid van een handvol hyperscalers tot een gereguleerd risico. Gestapeld op DORA en NIS2 is concentratie nu een veerkracht- en complianceaansprakelijkheid. Zo brengt u die in kaart.

2 min leestijd

Infrastructuur

Waarom verhoogt AI de prijs van hardware die je nooit hebt gekocht?

De kapitaaluitgaven van Microsoft stijgen in 2026 deels omdat de AI-vraag de prijzen van geheugen en opslag voor iedereen heeft opgedreven. AI is nu een marktkracht die de hardwarekosten herschept, zelfs voor bedrijven die het nooit invoeren, en dat verandert hoe je moet begroten.

2 min leestijd

Servola

Servola helpt eigenaren hun inferentie-afhankelijkheden te prijzen en van een tweede bron te voorzien voordat een toeleveringsketen het plafond voor hen zet.

Vraag een vertrouwelijk gesprek aan Over Servola →

Servola is technologisch advies voor een klein aantal families en family offices. Wanneer een beslissing niet kan worden gedelegeerd, zitten wij aan uw kant van de tafel.

Servola Systems GmbH · Ludwigshafen, Duitsland · [email protected]

← Alle artikelen