Co OpenAI faktycznie ogłosił

Około 1 lipca 2026 roku OpenAI oświadczył, że będzie uruchamiać swój nowy sztandarowy model, GPT-5.6 Sol, na sprzęcie waflowym Cerebras do 750 tokenów na sekundę, poczynając od lipca. Dostęp pozostaje najpierw ograniczony do wybranych klientów i będzie się rozszerzał w miarę wzrostu mocy. To nie jest demo badawcze. To zobowiązanie produkcyjne wobec konkretnego kawałka krzemu.

Za tym stoi wiążąca Master Relationship Agreement o wartości ponad 20 miliardów USD, którą OpenAI i Cerebras ujawniły. Obejmuje ona 750 megawatów waflowej mocy wnioskowania od 2026 do 2028 roku, z zapisami o rozbudowie do 2 gigawatów do 2030 roku. GPT-5.6 występuje w trzech rozmiarach, wycenionych za milion tokenów: Sol po 5 USD za wejście i 30 USD za wyjście, czyli około EUR 4,60 na wejściu i EUR 27,60 na wyjściu; Terra po 2,50 i 15; oraz Luna po 1 i 6.

Liczba, która liczy się dla właściciela, to nie nazwa modelu. To 750 tokenów na sekundę, dostarczonych przez nazwanego dostawcę, na mocy nazwanej umowy, na nazwany okres.

Szybkość, a nie tylko inteligencja, jest teraz produktem

Model klasy czołowej na tradycyjnym klastrze GPU strumieniuje z około 40 do 120 tokenów na sekundę. Cerebras ujawnił, że jego podejście waflowe uruchamia te same wagi modelu do około 15 razy szybciej niż systemy oparte na GPU, umieszczając obliczenia, pamięć i przepustowość na jednym waflu zamiast rozdzielać je na wiele chipów.

Ta różnica decyduje, które produkty da się zbudować. Przy 40 do 120 tokenach na sekundę agent głosowy czasu rzeczywistego się zacina, recenzent kodu na żywo zostaje w tyle za programistą, a interaktywna analiza dokumentów przypomina czekanie. Przy 750 tokenach na sekundę te obciążenia zależne od opóźnień stają się wykonalne. Ulepszenie to nie mądrzejsza odpowiedź, lecz odpowiedź dostatecznie szybka, by zmieścić się wewnątrz żywego przepływu pracy.

Szybkość mieszka pod jednym adresem

Oto problem koncentracji. Te 750 tokenów na sekundę nie jest własnością modelu w oderwaniu. Jest własnością krzemu waflowego jednego dostawcy, uruchamiającego model, który sam podlega ograniczeniom dostępu rządu USA, w ograniczonej zapowiedzi dla około 20 zatwierdzonych firm. Zmień jedną z tych trzech rzeczy, a szybkość, wokół której projektowałeś, znika.

Dla polskiej firmy to spiętrza trzy zależności, które dawniej były rozdzielne. Model jest amerykański i objęty kontrolą eksportu. Chip to zastrzeżony wafel jednego amerykańskiego dostawcy. Pułap przepustowości ustala umowa, której nie jesteś stroną. Suwerenne wnioskowanie było niegdyś pytaniem o to, na czyich chipach działasz. Dla mniejszego rynku jest teraz także pytaniem o to, czyje tokeny na sekundę wynajmujesz, a dziś odpowiedź przechodzi przez jeden amerykański łańcuch dostaw.

Uczyń tokeny na sekundę wycenioną zależnością

Traktuj szybkość wnioskowania tak, jak już traktujesz każdy nakład z jednego źródła: jako wycenioną, podważalną zależność, a nie darmowe ulepszenie. Pierwszym zadaniem jest pomiar. Poznaj pułap tokenów na sekundę, którego naprawdę potrzebują twoje funkcje zależne od opóźnień, oraz pułap, który daje ci obecny dostawca. Jeśli funkcja działa tylko powyżej pewnej szybkości, ta szybkość jest teraz częścią twojej specyfikacji produktu.

Drugim zadaniem jest utrzymanie drugiej ścieżki. Wskaż co najmniej jedną alternatywę zdolną unieść to samo obciążenie, nawet przy niższej szybkości, tak by klauzula umowna, reguła eksportowa lub limit mocy u jednego dostawcy nie wyłączyły po cichu żywego produktu. Dla właścicieli europejskich to tutaj rozmowa o suwerennym wnioskowaniu zyskuje swoje miejsce: nie jako polityka, lecz jako planowanie ciągłości dla pułapu przepustowości, którego nie kontrolujesz.

Zwycięzcy następnej fazy nie będą po prostu trzymać najmądrzejszego modelu. Będą znać swoją liczbę tokenów na sekundę, wiedzieć, kto ją kontroluje, i już wycenić koszt jej utraty.