Was OpenAI tatsächlich angekündigt hat
Um den 1. Juli 2026 erklärte OpenAI, sein neues Spitzenmodell GPT-5.6 Sol ab Juli auf Cerebras-Wafer-Hardware mit bis zu 750 Token pro Sekunde zu betreiben. Der Zugang bleibt zunächst auf ausgewählte Kunden beschränkt und wird mit wachsender Kapazität geöffnet. Das ist keine Forschungsvorführung, sondern eine Produktionszusage für ein ganz bestimmtes Stück Silizium.
Dahinter steht ein bindendes Master Relationship Agreement im Wert von über 20 Milliarden USD, das OpenAI und Cerebras offengelegt haben. Es umfasst 750 Megawatt Wafer-Inferenzkapazität von 2026 bis 2028, mit Optionen auf einen Ausbau auf 2 Gigawatt bis 2030. GPT-5.6 erscheint in drei Größen, bepreist je eine Million Token: Sol zu 5 USD Eingabe und 30 USD Ausgabe, also etwa EUR 4,60 hinein und EUR 27,60 hinaus; Terra zu 2,50 und 15; und Luna zu 1 und 6.
Die entscheidende Zahl für Eigentümer ist nicht der Modellname. Es sind 750 Token pro Sekunde, geliefert von einem benannten Lieferanten, unter einem benannten Vertrag, für eine benannte Laufzeit.
Tempo, nicht nur Intelligenz, ist jetzt das Produkt
Ein Modell der Spitzenklasse streamt auf einem herkömmlichen GPU-Cluster mit rund 40 bis 120 Token pro Sekunde. Cerebras legte offen, dass sein Wafer-Ansatz dieselben Modellgewichte bis zu etwa 15-mal schneller ausführt als GPU-Systeme, indem Rechenleistung, Speicher und Bandbreite auf einem einzigen Wafer sitzen statt über viele Chips verteilt zu sein.
Dieser Unterschied entscheidet, welche Produkte baubar sind. Bei 40 bis 120 Token pro Sekunde stockt ein Echtzeit-Sprachagent, ein Live-Code-Reviewer hinkt dem Entwickler hinterher, und interaktive Dokumentenanalyse fühlt sich wie Warten an. Bei 750 Token pro Sekunde werden diese latenzgebundenen Workloads tragfähig. Das Upgrade ist keine klügere Antwort, sondern eine Antwort, die schnell genug ist, um in einem laufenden Arbeitsablauf zu sitzen.
Das Tempo wohnt unter einer einzigen Adresse
Hier liegt das Konzentrationsproblem. Diese 750 Token pro Sekunde sind keine Eigenschaft des Modells an sich. Sie sind eine Eigenschaft des Wafer-Siliziums eines einzigen Anbieters, das ein Modell ausführt, das seinerseits US-staatlichen Zugangsbeschränkungen unterliegt, in begrenzter Vorschau für etwa 20 zugelassene Unternehmen. Ändert sich nur eines dieser drei Dinge, verschwindet das Tempo, um das herum Sie konstruiert haben.
Für ein europäisches Unternehmen stapeln sich drei Abhängigkeiten, die früher getrennt waren. Das Modell ist amerikanisch und exportkontrolliert. Der Chip ist der proprietäre Wafer eines einzelnen amerikanischen Lieferanten. Die Durchsatz-Obergrenze setzt ein Vertrag, an dem Sie nicht beteiligt sind. Souveräne Inferenz war einst eine Frage danach, auf wessen Chips Sie laufen. Sie ist im Gaia-X-Rahmen nun auch eine Frage danach, wessen Token pro Sekunde Sie mieten, und heute führt die Antwort durch eine einzige US-Lieferkette.
Machen Sie Token pro Sekunde zur bepreisten Abhängigkeit
Behandeln Sie Inferenz-Tempo so, wie Sie bereits jede Einzelquellen-Zulieferung behandeln: als bepreiste, bestreitbare Abhängigkeit, nicht als kostenloses Upgrade. Die erste Aufgabe ist das Messen. Kennen Sie die Token-pro-Sekunde-Obergrenze, die Ihre latenzgebundenen Funktionen wirklich brauchen, und die Obergrenze, die Ihr aktueller Lieferant liefert. Wenn eine Funktion nur oberhalb eines Tempos funktioniert, ist dieses Tempo nun Teil Ihrer Produktspezifikation.
Die zweite Aufgabe ist, einen zweiten Weg offenzuhalten. Bestimmen Sie mindestens eine Alternative, die denselben Workload tragen kann, auch bei geringerem Tempo, damit eine Vertragsklausel, eine Exportregel oder eine Kapazitätsgrenze bei einem Anbieter nicht stillschweigend ein laufendes Produkt abschaltet. Für europäische Eigentümer verdient hier das Gespräch über souveräne Inferenz seinen Platz: nicht als Politik, sondern als Kontinuitätsplanung für eine Durchsatz-Obergrenze, die Sie nicht kontrollieren.
Die Gewinner der nächsten Phase halten nicht einfach das klügste Modell. Sie kennen ihre Token-pro-Sekunde-Zahl, wissen, wer sie kontrolliert, und haben die Kosten ihres Verlusts bereits eingepreist.
Weiterlesen: Strom ist die neue Grenze für KI · Ihre Cloud-Abhängigkeit ist jetzt ein reguliertes Risiko. Die meisten Unternehmen können die eigene nicht einmal sehen.



