Infrastruktura

OpenAI kupuje swoją szybkość u jednego producenta

OpenAI uruchomi GPT-5.6 Sol na sprzęcie waflowym Cerebras do 750 tokenów na sekundę. Dlaczego przepustowość wnioskowania, a nie jakość modelu, jest teraz sporną zmienną dla właścicieli.

InfrastrukturaAutor Servola Tech Desk2026-07-044 min czytania4 wyświetleń

Wspomagane przez AI, redagowane przez ludzi. Standardy redakcyjne

OpenAI kupuje swoją szybkość u jednego producenta

Co OpenAI faktycznie ogłosił

Około 1 lipca 2026 roku OpenAI oświadczył, że będzie uruchamiać swój nowy sztandarowy model, GPT-5.6 Sol, na sprzęcie waflowym Cerebras do 750 tokenów na sekundę, poczynając od lipca. Dostęp pozostaje najpierw ograniczony do wybranych klientów i będzie się rozszerzał w miarę wzrostu mocy. To nie jest demo badawcze. To zobowiązanie produkcyjne wobec konkretnego kawałka krzemu.

Za tym stoi wiążąca Master Relationship Agreement o wartości ponad 20 miliardów USD, którą OpenAI i Cerebras ujawniły. Obejmuje ona 750 megawatów waflowej mocy wnioskowania od 2026 do 2028 roku, z zapisami o rozbudowie do 2 gigawatów do 2030 roku. GPT-5.6 występuje w trzech rozmiarach, wycenionych za milion tokenów: Sol po 5 USD za wejście i 30 USD za wyjście, czyli około EUR 4,60 na wejściu i EUR 27,60 na wyjściu; Terra po 2,50 i 15; oraz Luna po 1 i 6.

Liczba, która liczy się dla właściciela, to nie nazwa modelu. To 750 tokenów na sekundę, dostarczonych przez nazwanego dostawcę, na mocy nazwanej umowy, na nazwany okres.

Szybkość, a nie tylko inteligencja, jest teraz produktem

Model klasy czołowej na tradycyjnym klastrze GPU strumieniuje z około 40 do 120 tokenów na sekundę. Cerebras ujawnił, że jego podejście waflowe uruchamia te same wagi modelu do około 15 razy szybciej niż systemy oparte na GPU, umieszczając obliczenia, pamięć i przepustowość na jednym waflu zamiast rozdzielać je na wiele chipów.

Ta różnica decyduje, które produkty da się zbudować. Przy 40 do 120 tokenach na sekundę agent głosowy czasu rzeczywistego się zacina, recenzent kodu na żywo zostaje w tyle za programistą, a interaktywna analiza dokumentów przypomina czekanie. Przy 750 tokenach na sekundę te obciążenia zależne od opóźnień stają się wykonalne. Ulepszenie to nie mądrzejsza odpowiedź, lecz odpowiedź dostatecznie szybka, by zmieścić się wewnątrz żywego przepływu pracy.

Szybkość mieszka pod jednym adresem

Oto problem koncentracji. Te 750 tokenów na sekundę nie jest własnością modelu w oderwaniu. Jest własnością krzemu waflowego jednego dostawcy, uruchamiającego model, który sam podlega ograniczeniom dostępu rządu USA, w ograniczonej zapowiedzi dla około 20 zatwierdzonych firm. Zmień jedną z tych trzech rzeczy, a szybkość, wokół której projektowałeś, znika.

Dla polskiej firmy to spiętrza trzy zależności, które dawniej były rozdzielne. Model jest amerykański i objęty kontrolą eksportu. Chip to zastrzeżony wafel jednego amerykańskiego dostawcy. Pułap przepustowości ustala umowa, której nie jesteś stroną. Suwerenne wnioskowanie było niegdyś pytaniem o to, na czyich chipach działasz. Dla mniejszego rynku jest teraz także pytaniem o to, czyje tokeny na sekundę wynajmujesz, a dziś odpowiedź przechodzi przez jeden amerykański łańcuch dostaw.

Uczyń tokeny na sekundę wycenioną zależnością

Traktuj szybkość wnioskowania tak, jak już traktujesz każdy nakład z jednego źródła: jako wycenioną, podważalną zależność, a nie darmowe ulepszenie. Pierwszym zadaniem jest pomiar. Poznaj pułap tokenów na sekundę, którego naprawdę potrzebują twoje funkcje zależne od opóźnień, oraz pułap, który daje ci obecny dostawca. Jeśli funkcja działa tylko powyżej pewnej szybkości, ta szybkość jest teraz częścią twojej specyfikacji produktu.

Drugim zadaniem jest utrzymanie drugiej ścieżki. Wskaż co najmniej jedną alternatywę zdolną unieść to samo obciążenie, nawet przy niższej szybkości, tak by klauzula umowna, reguła eksportowa lub limit mocy u jednego dostawcy nie wyłączyły po cichu żywego produktu. Dla właścicieli europejskich to tutaj rozmowa o suwerennym wnioskowaniu zyskuje swoje miejsce: nie jako polityka, lecz jako planowanie ciągłości dla pułapu przepustowości, którego nie kontrolujesz.

Zwycięzcy następnej fazy nie będą po prostu trzymać najmądrzejszego modelu. Będą znać swoją liczbę tokenów na sekundę, wiedzieć, kto ją kontroluje, i już wycenić koszt jej utraty.

Czytaj dalej: Prąd to nowy limit dla AI · Twoja zależność od chmury jest teraz regulowanym ryzykiem. Większość firm nawet nie widzi własnej.

Często zadawane pytania

Dlaczego 750 tokenów na sekundę liczy się bardziej niż mądrzejszy model?

Bo zmienia to, co możesz zbudować. Wiele produktów agentowych, jak agenci głosowi czasu rzeczywistego i recenzja kodu na żywo, jest ograniczonych opóźnieniem, a nie inteligencją. Model przy 40 do 120 tokenach na sekundę nie uniesie ich płynnie, 750 tokenów na sekundę uniesie. Szybkość staje się częścią specyfikacji produktu, a nie szczegółem tła.

Jakie jest ryzyko koncentracji dla polskiego lub europejskiego właściciela?

Szybkość zależy od trzech amerykańskich rzeczy naraz: modelu objętego kontrolą eksportu, zastrzeżonego wafla jednego dostawcy oraz umowy, której nie jesteś stroną. Jeśli jedna z nich się zmieni, przepustowość, wokół której budowałeś, może zniknąć. To jeden łańcuch dostaw dźwigający ciężar, który dawniej był rozłożony.

Co właściciel powinien teraz faktycznie zrobić?

Zmierz pułap tokenów na sekundę, którego potrzebują twoje funkcje, i ten, który daje twój dostawca, oraz utrzymuj co najmniej drugą ścieżkę zdolną unieść to samo obciążenie nawet przy niższej szybkości. Traktuj przepustowość wnioskowania jako wycenioną zależność, wokół której planujesz, a nie darmowe ulepszenie, które zakładasz z góry.

Granica nie biegnie już wyłącznie wzdłuż najmądrzejszego modelu. Biegnie wzdłuż tego, kto posiada szybkość, i tego, czy masz sposób, by dalej pracować, gdy ta szybkość nie jest twoja do rozkazywania.

Infrastructure Inference Cerebras OpenAI Wafer-Scale Compute

Więcej z Servola Journal

Infrastruktura

Prąd to nowy limit dla AI

Wiążącym ograniczeniem dla AI w Europie nie są już chipy ani modele. To energia elektryczna i kolejka do sieci liczona w latach. Co to znaczy dla twojej AI.

3 min czytania

Infrastruktura

Twoja zależność od chmury jest teraz regulowanym ryzykiem. Większość firm nawet nie widzi własnej.

Europejski Pakiet Suwerenności Technologicznej z 2026 roku oraz Cloud and AI Development Act zamieniają zależność od kilku dostawców hyperscaler w regulowane ryzyko. W połączeniu z DORA i NIS2 koncentracja staje się obciążeniem dla odporności i zgodności. Oto jak ją zmapować.

2 min czytania

Infrastruktura

Dlaczego AI podnosi ceny sprzętu, którego nigdy nie kupiłeś?

Wydatki kapitałowe Microsoftu w 2026 roku rosną częściowo dlatego, że popyt na AI podniósł ceny pamięci i pamięci masowej dla wszystkich. AI jest teraz siłą rynkową, która przekształca koszty sprzętu nawet dla firm, które nigdy go nie wdrażają, a to zmienia sposób, w jaki powinieneś planować budżet.

2 min czytania

Servola

Servola pomaga właścicielom wycenić i podwoić źródło ich zależności wnioskowania, zanim łańcuch dostaw ustali pułap za nich.

Poproś o poufną rozmowę O Servoli →

Servola to doradztwo technologiczne dla niewielkiej liczby rodzin i family offices. Gdy decyzji nie można delegować, siadamy po Twojej stronie stołu.

Servola Systems GmbH · Ludwigshafen, Niemcy · [email protected]

← Wszystkie artykuły