Hvad OpenAI faktisk annoncerede
Omkring den 1. juli 2026 sagde OpenAI, at det vil køre sin nye flagskibsmodel, GPT-5.6 Sol, på Cerebras wafer-hardware op til 750 tokens i sekundet fra juli. Adgangen forbliver først begrænset til udvalgte kunder og udvides, efterhånden som kapaciteten vokser. Dette er ikke en forskningsdemo. Det er et produktionsløfte til et bestemt stykke silicium.
Bag det ligger en bindende Master Relationship Agreement til over 20 milliarder USD, som OpenAI og Cerebras har oplyst. Den dækker 750 megawatt wafer-inferenskapacitet fra 2026 til 2028, med bestemmelser om at udvide til 2 gigawatt inden 2030. GPT-5.6 kommer i tre størrelser, prissat pr. million tokens: Sol til 5 USD input og 30 USD output, altså omkring EUR 4,60 ind og EUR 27,60 ud; Terra til 2,50 og 15; og Luna til 1 og 6.
Tallet, der betyder noget for en ejer, er ikke modelnavnet. Det er 750 tokens i sekundet, leveret af en navngivet leverandør, under en navngivet kontrakt, i en navngivet periode.
Hastighed, ikke kun intelligens, er nu produktet
En model i frontklassen på en traditionel GPU-klynge streamer med cirka 40 til 120 tokens i sekundet. Cerebras oplyste, at dets wafer-tilgang kører de samme modelvægte op til cirka 15 gange hurtigere end GPU-baserede systemer ved at placere beregning, hukommelse og båndbredde på en enkelt wafer i stedet for at fordele dem over mange chips.
Den forskel afgør, hvilke produkter der kan bygges. Ved 40 til 120 tokens i sekundet hakker en talelydsagent i realtid, en live kodegennemgåer sakker bagud i forhold til udvikleren, og interaktiv dokumentanalyse føles som at vente. Ved 750 tokens i sekundet bliver de latensbundne arbejdsbyrder gennemførlige. Opgraderingen er ikke et klogere svar, men et svar hurtigt nok til at sidde inde i et levende arbejdsforløb.
Hastigheden bor på en enkelt adresse
Her er koncentrationsproblemet. De 750 tokens i sekundet er ikke en egenskab ved modellen i det abstrakte. De er en egenskab ved en enkelt leverandørs wafer-silicium, der kører en model, som selv er under amerikanske regeringsadgangsrestriktioner, i begrænset forhåndsvisning til omkring 20 godkendte virksomheder. Ændr en enkelt af de tre ting, og hastigheden, du designede omkring, forsvinder.
For en dansk virksomhed stabler dette tre afhængigheder, der før var adskilte. Modellen er amerikansk og eksportkontrolleret. Chippen er en enkelt amerikansk leverandørs proprietære wafer. Gennemløbsloftet sættes af en kontrakt, du ikke er part i. Suveræn inferens var engang et spørgsmål om, hvis chips du kører på. For et mindre marked er det nu også et spørgsmål om, hvis tokens i sekundet du lejer, og i dag går svaret gennem en enkelt amerikansk forsyningskæde.
Gør tokens i sekundet til en prissat afhængighed
Behandl inferenshastighed, som du allerede behandler enhver enkeltkildeleverance: som en prissat, bestridelig afhængighed, ikke en gratis opgradering. Den første opgave er at måle. Kend det tokens-i-sekundet loft, dine latensbundne funktioner faktisk har brug for, og det loft, din nuværende leverandør giver. Hvis en funktion kun virker over en bestemt hastighed, er den hastighed nu en del af din produktspecifikation.
Den anden opgave er at holde en anden vej åben. Udpeg mindst et alternativ, der kan bære den samme arbejdsbyrde, selv ved lavere hastighed, så en kontraktklausul, en eksportregel eller en kapacitetsgrænse hos en leverandør ikke i stilhed slukker et levende produkt. For ejere i mindre markeder tjener samtalen om suveræn inferens her sin plads: ikke som politik, men som kontinuitetsplanlægning for et gennemløbsloft, du ikke styrer.
Vinderne af den næste fase holder ikke blot den klogeste model. De kender deres tokens-i-sekundet tal, ved hvem der styrer det, og har allerede prissat omkostningen ved at miste det.
Læs videre: Strøm er den nye grænse for AI · Din cloud-afhængighed er nu en reguleret risiko. De fleste virksomheder kan ikke engang se deres egen.



