Infrastruktur

OpenAI köper sin hastighet från en enda chiptillverkare

OpenAI kör GPT-5.6 Sol på Cerebras wafer-hårdvara upp till 750 tokens per sekund. Varför inferensgenomströmning, inte modellkvalitet, nu är den omstridda variabeln för ägare.

InfrastrukturAv Servola Tech Desk2026-07-044 min lästid4 visningar

AI-assisterad, redigerad av människor. Redaktionella riktlinjer

OpenAI köper sin hastighet från en enda chiptillverkare

Vad OpenAI faktiskt tillkännagav

Omkring den 1 juli 2026 sade OpenAI att det ska köra sin nya flaggskeppsmodell, GPT-5.6 Sol, på Cerebras wafer-hårdvara upp till 750 tokens per sekund från juli. Tillgången förblir först begränsad till utvalda kunder och vidgas allteftersom kapaciteten växer. Detta är ingen forskningsdemo. Det är ett produktionslöfte till en bestämd bit kisel.

Bakom ligger ett bindande Master Relationship Agreement på över 20 miljarder USD, som OpenAI och Cerebras har röjt. Det täcker 750 megawatt wafer-inferenskapacitet från 2026 till 2028, med bestämmelser om att utöka till 2 gigawatt till 2030. GPT-5.6 kommer i tre storlekar, prissatta per miljon tokens: Sol till 5 USD indata och 30 USD utdata, alltså omkring EUR 4,60 in och EUR 27,60 ut; Terra till 2,50 och 15; och Luna till 1 och 6.

Siffran som betyder något för en ägare är inte modellnamnet. Det är 750 tokens per sekund, levererade av en namngiven leverantör, under ett namngivet kontrakt, för en namngiven löptid.

Hastighet, inte bara intelligens, är nu produkten

En modell i toppklass på ett traditionellt GPU-kluster streamar med omkring 40 till 120 tokens per sekund. Cerebras röjde att dess wafer-ansats kör samma modellvikter upp till omkring 15 gånger snabbare än GPU-baserade system genom att placera beräkning, minne och bandbredd på en enda wafer i stället för att sprida dem över många chip.

Den skillnaden avgör vilka produkter som går att bygga. Vid 40 till 120 tokens per sekund hackar en röstagent i realtid, en direktgranskare av kod släpar efter utvecklaren, och interaktiv dokumentanalys känns som att vänta. Vid 750 tokens per sekund blir de latensbundna arbetsbelastningarna genomförbara. Uppgraderingen är inte ett smartare svar, utan ett svar snabbt nog att sitta inne i ett levande arbetsflöde.

Hastigheten bor på en enda adress

Här är koncentrationsproblemet. De 750 tokens per sekund är inte en egenskap hos modellen i det abstrakta. De är en egenskap hos en enda leverantörs wafer-kisel, som kör en modell som själv är under amerikanska regeringsåtkomstrestriktioner, i begränsad förhandsvisning för omkring 20 godkända företag. Ändra en enda av de tre sakerna, och hastigheten du designade kring försvinner.

För ett svenskt företag staplar detta tre beroenden som förr var åtskilda. Modellen är amerikansk och exportkontrollerad. Chipet är en enda amerikansk leverantörs proprietära wafer. Genomströmningstaket sätts av ett kontrakt du inte är part i. Suverän inferens var en gång en fråga om vems chip du kör på. För en mindre marknad är det nu också en fråga om vems tokens per sekund du hyr, och i dag går svaret genom en enda amerikansk försörjningskedja.

Gör tokens per sekund till ett prissatt beroende

Behandla inferenshastighet som du redan behandlar varje enkelkälleleverans: som ett prissatt, bestridbart beroende, inte en gratis uppgradering. Den första uppgiften är att mäta. Känn det tokens-per-sekund tak dina latensbundna funktioner faktiskt behöver, och taket din nuvarande leverantör ger. Om en funktion bara fungerar över en viss hastighet är den hastigheten nu en del av din produktspecifikation.

Den andra uppgiften är att hålla en andra väg öppen. Peka ut minst ett alternativ som kan bära samma arbetsbelastning, även vid lägre hastighet, så att en kontraktsklausul, en exportregel eller en kapacitetsgräns hos en leverantör inte tyst slår av en levande produkt. För ägare på mindre marknader förtjänar samtalet om suverän inferens här sin plats: inte som politik, utan som kontinuitetsplanering för ett genomströmningstak du inte styr.

Vinnarna i nästa fas håller inte bara den smartaste modellen. De känner sin tokens-per-sekund siffra, vet vem som styr den, och har redan prissatt kostnaden för att förlora den.

Läs vidare: Ström är den nya gränsen för AI · Ditt molnberoende är nu en reglerad risk. De flesta företag kan inte ens se sitt eget.

Vanliga frågor

Varför betyder 750 tokens per sekund mer än en smartare modell?

För att de ändrar vad du kan bygga. Många agentiska produkter, såsom röstagenter i realtid och direktgranskning av kod, begränsas av latens, inte av intelligens. En modell med 40 till 120 tokens per sekund bär dem inte flytande, 750 tokens per sekund gör det. Hastighet blir en del av produktspecifikationen, inte en bakgrundsdetalj.

Vad är koncentrationsrisken för en svensk eller europeisk ägare?

Hastigheten beror på tre amerikanska saker samtidigt: en exportkontrollerad modell, en enda leverantörs proprietära wafer och ett kontrakt du inte är part i. Om en av dem ändras kan genomströmningen du byggde kring försvinna. Det är en enda försörjningskedja som bär en last som förr var spridd.

Vad bör en ägare faktiskt göra nu?

Mät det tokens-per-sekund tak dina funktioner behöver och det din leverantör ger, och håll minst en andra väg öppen som kan bära samma arbetsbelastning även vid lägre hastighet. Behandla inferensgenomströmning som ett prissatt beroende du planerar kring, inte en gratis uppgradering du förutsätter.

Fronten går inte längre bara längs den smartaste modellen. Den går längs vem som äger hastigheten, och om du har ett sätt att fortsätta arbeta när den hastigheten inte är din att befalla.

Infrastructure Inference Cerebras OpenAI Wafer-Scale Compute

Mer från Servola Journal

Infrastruktur

Ström är den nya gränsen för AI

AI:s bindande begränsning i Europa är inte längre chip eller modeller. Det är el och en elnätskö som mäts i år. Vad det betyder för din AI-plan.

3 min lästid

Infrastruktur

Ditt molnberoende är nu en reglerad risk. De flesta företag kan inte ens se sitt eget.

European Technological Sovereignty Package från 2026 och Cloud and AI Development Act gör beroendet av en handfull hyperscalers till en reglerad risk. Tillsammans med DORA och NIS2 är koncentration nu både en resiliens- och en efterlevnadsbelastning. Så här kartlägger du den.

2 min lästid

Infrastruktur

Varför höjer AI priset på hårdvara du aldrig köpt?

Microsofts kapitalutgifter för 2026 stiger delvis därför att AI-efterfrågan har drivit upp priserna på minne och lagring för alla. AI är nu en marknadskraft som omformar hårdvarukostnader även för företag som aldrig använder det, och det förändrar hur du bör budgetera.

2 min lästid

Servola

Servola hjälper ägare att prissätta och andrakälla sina inferensberoenden innan en försörjningskedja sätter taket åt dem.

Begär en konfidentiell introduktion Om Servola →

Servola är teknologisk rådgivning för ett litet antal familjer och family offices. När ett beslut inte kan delegeras sitter vi på din sida av bordet.

Servola Systems GmbH · Ludwigshafen, Tyskland · [email protected]

← Alla artiklar