Cosa ha annunciato davvero OpenAI
Intorno al 1 luglio 2026, OpenAI ha detto che eseguirà il suo nuovo modello di punta, GPT-5.6 Sol, su hardware wafer di Cerebras fino a 750 token al secondo, a partire da luglio. L'accesso resta inizialmente limitato a clienti selezionati e si allargherà con la crescita della capacità. Non è una dimostrazione di ricerca. È un impegno di produzione su un pezzo preciso di silicio.
Dietro c'è un vincolante Master Relationship Agreement da oltre 20 miliardi di USD, che OpenAI e Cerebras hanno reso noto. Copre 750 megawatt di capacità di inferenza wafer dal 2026 al 2028, con previsioni di espansione a 2 gigawatt entro il 2030. GPT-5.6 arriva in tre taglie, con prezzo per milione di token: Sol a 5 USD in ingresso e 30 USD in uscita, cioè circa EUR 4,60 in ingresso ed EUR 27,60 in uscita; Terra a 2,50 e 15; e Luna a 1 e 6.
La cifra che conta per un proprietario non è il nome del modello. Sono 750 token al secondo, consegnati da un fornitore con un nome, sotto un contratto con un nome, per una durata con un nome.
La velocità, non solo l'intelligenza, è ora il prodotto
Un modello di prima linea su un cluster GPU tradizionale trasmette a circa 40-120 token al secondo. Cerebras ha reso noto che il suo approccio wafer esegue gli stessi pesi del modello fino a circa 15 volte più velocemente dei sistemi basati su GPU, collocando calcolo, memoria e banda su un unico wafer invece di distribuirli su molti chip.
Questa differenza decide quali prodotti sono costruibili. A 40-120 token al secondo, un agente vocale in tempo reale singhiozza, un revisore di codice dal vivo resta indietro rispetto allo sviluppatore e l'analisi interattiva dei documenti sa di attesa. A 750 token al secondo, quei carichi legati alla latenza diventano praticabili. L'aggiornamento non è una risposta più intelligente, ma una risposta abbastanza rapida da stare dentro un flusso di lavoro attivo.
La velocità abita a un solo indirizzo
Ecco il problema di concentrazione. Quei 750 token al secondo non sono una proprietà del modello in astratto. Sono una proprietà del silicio wafer di un solo fornitore, che esegue un modello a sua volta soggetto a restrizioni di accesso del governo USA, in anteprima limitata a circa 20 aziende approvate. Cambia una sola di queste tre cose e la velocità attorno a cui hai progettato svanisce.
Per un'azienda italiana, questo impila tre dipendenze che prima erano separate. Il modello è americano e soggetto a controllo delle esportazioni. Il chip è il wafer proprietario di un unico fornitore americano. Il tetto di throughput lo fissa un contratto di cui non sei parte. L'inferenza sovrana era un tempo una domanda su quali chip usi. Ora è anche una domanda su di chi sono i token al secondo che affitti, e oggi la risposta passa per un'unica catena di fornitura statunitense.
Rendi i token al secondo una dipendenza a prezzo
Tratta la velocità di inferenza come già tratti qualsiasi input a fonte unica: una dipendenza a prezzo e contendibile, non un aggiornamento gratuito. Il primo compito è misurare. Conosci il tetto di token al secondo di cui le tue funzioni legate alla latenza hanno davvero bisogno, e il tetto che ti dà il fornitore attuale. Se una funzione opera solo sopra una certa velocità, quella velocità è ormai parte della tua specifica di prodotto.
Il secondo compito è tenere una seconda via. Individua almeno un'alternativa capace di reggere lo stesso carico, anche a velocità inferiore, così che una clausola contrattuale, una regola di esportazione o un limite di capacità presso un fornitore non spengano in silenzio un prodotto vivo. Per i proprietari europei, qui la conversazione sull'inferenza sovrana si guadagna il suo posto: non come politica, ma come pianificazione di continuità per un tetto di throughput che non controlli.
I vincitori della prossima fase non terranno soltanto il modello più intelligente. Conosceranno il loro numero di token al secondo, sapranno chi lo controlla e avranno già messo a prezzo il costo di perderlo.
Da leggere ora: L'energia è il nuovo limite dell'IA · La tua dipendenza dal cloud è ora un rischio regolamentato. La maggior parte delle aziende non riesce nemmeno a vedere la propria.



