Vad OpenAI faktiskt tillkännagav
Omkring den 1 juli 2026 sade OpenAI att det ska köra sin nya flaggskeppsmodell, GPT-5.6 Sol, på Cerebras wafer-hårdvara upp till 750 tokens per sekund från juli. Tillgången förblir först begränsad till utvalda kunder och vidgas allteftersom kapaciteten växer. Detta är ingen forskningsdemo. Det är ett produktionslöfte till en bestämd bit kisel.
Bakom ligger ett bindande Master Relationship Agreement på över 20 miljarder USD, som OpenAI och Cerebras har röjt. Det täcker 750 megawatt wafer-inferenskapacitet från 2026 till 2028, med bestämmelser om att utöka till 2 gigawatt till 2030. GPT-5.6 kommer i tre storlekar, prissatta per miljon tokens: Sol till 5 USD indata och 30 USD utdata, alltså omkring EUR 4,60 in och EUR 27,60 ut; Terra till 2,50 och 15; och Luna till 1 och 6.
Siffran som betyder något för en ägare är inte modellnamnet. Det är 750 tokens per sekund, levererade av en namngiven leverantör, under ett namngivet kontrakt, för en namngiven löptid.
Hastighet, inte bara intelligens, är nu produkten
En modell i toppklass på ett traditionellt GPU-kluster streamar med omkring 40 till 120 tokens per sekund. Cerebras röjde att dess wafer-ansats kör samma modellvikter upp till omkring 15 gånger snabbare än GPU-baserade system genom att placera beräkning, minne och bandbredd på en enda wafer i stället för att sprida dem över många chip.
Den skillnaden avgör vilka produkter som går att bygga. Vid 40 till 120 tokens per sekund hackar en röstagent i realtid, en direktgranskare av kod släpar efter utvecklaren, och interaktiv dokumentanalys känns som att vänta. Vid 750 tokens per sekund blir de latensbundna arbetsbelastningarna genomförbara. Uppgraderingen är inte ett smartare svar, utan ett svar snabbt nog att sitta inne i ett levande arbetsflöde.
Hastigheten bor på en enda adress
Här är koncentrationsproblemet. De 750 tokens per sekund är inte en egenskap hos modellen i det abstrakta. De är en egenskap hos en enda leverantörs wafer-kisel, som kör en modell som själv är under amerikanska regeringsåtkomstrestriktioner, i begränsad förhandsvisning för omkring 20 godkända företag. Ändra en enda av de tre sakerna, och hastigheten du designade kring försvinner.
För ett svenskt företag staplar detta tre beroenden som förr var åtskilda. Modellen är amerikansk och exportkontrollerad. Chipet är en enda amerikansk leverantörs proprietära wafer. Genomströmningstaket sätts av ett kontrakt du inte är part i. Suverän inferens var en gång en fråga om vems chip du kör på. För en mindre marknad är det nu också en fråga om vems tokens per sekund du hyr, och i dag går svaret genom en enda amerikansk försörjningskedja.
Gör tokens per sekund till ett prissatt beroende
Behandla inferenshastighet som du redan behandlar varje enkelkälleleverans: som ett prissatt, bestridbart beroende, inte en gratis uppgradering. Den första uppgiften är att mäta. Känn det tokens-per-sekund tak dina latensbundna funktioner faktiskt behöver, och taket din nuvarande leverantör ger. Om en funktion bara fungerar över en viss hastighet är den hastigheten nu en del av din produktspecifikation.
Den andra uppgiften är att hålla en andra väg öppen. Peka ut minst ett alternativ som kan bära samma arbetsbelastning, även vid lägre hastighet, så att en kontraktsklausul, en exportregel eller en kapacitetsgräns hos en leverantör inte tyst slår av en levande produkt. För ägare på mindre marknader förtjänar samtalet om suverän inferens här sin plats: inte som politik, utan som kontinuitetsplanering för ett genomströmningstak du inte styr.
Vinnarna i nästa fas håller inte bara den smartaste modellen. De känner sin tokens-per-sekund siffra, vet vem som styr den, och har redan prissatt kostnaden för att förlora den.
Läs vidare: Ström är den nya gränsen för AI · Ditt molnberoende är nu en reglerad risk. De flesta företag kan inte ens se sitt eget.



