AI Economy

I token IA ora hanno l'ora di punta

DeepSeek lancerà V4 a metà luglio con la prima tariffa oraria su una API di IA: prezzi doppi nelle ore lavorative cinesi. Perché i token diventano un'utenza e l'Europa guadagna un vantaggio orario.

AI EconomyDi Servola Tech Desk2026-07-043 min di lettura

Assistito da IA, curato da persone. Editorial standards

Punti chiave

Il 30 giugno 2026 DeepSeek ha annunciato il rilascio ufficiale di V4 per metà luglio, introducendo la prima tariffazione oraria su una grande API di IA: l'uso nelle finestre di punta giornaliere dalle 9:00 alle 12:00 e dalle 14:00 alle 18:00 costa il doppio della tariffa fuori punta.
V4 arriva con una finestra di contesto da 1 milione di token di serie su tutta la gamma, guidata da V4-Pro, un modello mixture-of-experts da 1.600 miliardi di parametri con 49 miliardi attivi, accanto al più leggero V4-Flash; i vecchi endpoint deepseek-chat e deepseek-reasoner vanno in pensione dopo il 24 luglio.
La tariffazione per fasce importa nell'IA l'economia della rete elettrica: è l'ammissione che la capacità di inferenza è finita e che la domanda, non solo il consumo, fissa ora il prezzo.
I compratori europei guadagnano un vantaggio orario letterale: le finestre di punta comunicate corrispondono all'alba e alla mattinata dell'Europa centrale, lasciando l'intero pomeriggio e la sera europei fuori punta.

Cosa ha annunciato DeepSeek

Il 30 giugno 2026 DeepSeek ha comunicato che la versione ufficiale di V4 arriverà a metà luglio, promuovendo l'anteprima disponibile dal 24 aprile, come riportato da TechNode. La novità principale non è un benchmark. È un meccanismo di prezzo: per la prima volta su una grande API di IA, i token costeranno in modo diverso a seconda dell'ora, con tariffe raddoppiate nelle finestre giornaliere dalle 9:00 alle 12:00 e dalle 14:00 alle 18:00, l'orario lavorativo cinese, e la tariffa fuori punta invariata.

I modelli in sé sono consistenti: la finestra di contesto da 1 milione di token diventa standard su tutta la gamma, V4-Pro è un progetto mixture-of-experts da 1.600 miliardi di parametri con 49 miliardi attivi, V4-Flash un modello da 284 miliardi con 13 miliardi attivi. La documentazione di DeepSeek aggiunge una scadenza dura: i vecchi endpoint deepseek-chat e deepseek-reasoner diventano inaccessibili dopo il 24 luglio, quindi le integrazioni esistenti devono migrare, che il nuovo contatore piaccia o no.

Perché un laboratorio prezza come un'azienda elettrica

La tariffazione per fasce esiste in un solo tipo di mercato: capacità fissa, domanda oscillante. Le reti elettriche l'hanno inventata perché lo stoccaggio era caro e il picco di domanda dimensionava l'intero sistema. Che un laboratorio di IA ricorra ora allo stesso strumento è un'ammissione che vale più di qualunque keynote: la capacità di inferenza è finita, le GPU non fanno la fila educatamente, e il token marginale delle 10:30 di un martedì costa all'operatore più dello stesso token a mezzanotte.

Rompe anche un'ipotesi comoda. Da due anni il settore ripete che l'intelligenza costa meno ogni trimestre. Per token, resta vero. Ma il nuovo meccanismo significa che il prezzo della stessa richiesta non è più una costante, e chi ha pianificato su costi unitari piatti possiede ora un piccolo problema di trading energetico. Appena un fornitore dimostra che i clienti accettano prezzi di punta, tutti gli altri hanno ogni incentivo a seguirlo.

Il vantaggio orario europeo

Per i compratori europei la geografia delle finestre di punta è insolitamente favorevole. Le ore di punta comunicate cadono tra le 3:00 e le 6:00 e tra le 8:00 e le 12:00, ora legale dell'Europa centrale, quella di Milano o Roma. Da mezzogiorno, l'intero pomeriggio e la sera lavorativi corrono fuori punta. Un'azienda europea che usa DeepSeek paga la tariffa scontata per la maggior parte della propria giornata, mentre un concorrente cinese paga il doppio durante la sua.

La mossa pratica è architetturale, non contrattuale: separare le chiamate critiche per latenza da quelle rinviabili. Elaborazioni notturne a lotti, embedding, reindicizzazioni, valutazioni e report possono essere programmati nelle finestre fuori punta con una coda e una voce di cron. Questa disciplina vale la pena anche se non userete mai DeepSeek, perché la tariffazione oraria è ormai dimostrata, e la versione del vostro fornitore dista una riunione di prodotto.

Cosa fare prima di metà luglio

Tre azioni stanno nelle due settimane prima del rilascio. Prima: chi usa gli endpoint in pensionamento deepseek-chat o deepseek-reasoner ha bisogno di un piano di migrazione prima del 24 luglio, testato, non solo pianificato. Seconda: i team che usano qualunque API di IA a consumo dovrebbero etichettare ora i carichi come rinviabili o interattivi, così la pianificazione diventa poi una modifica di configurazione. Terza: chi possiede il budget IA dovrebbe modellare la spesa con un prezzo a due fasce e fare a ogni fornitore una domanda al rinnovo: vi impegnate a prezzi indipendenti dall'ora per la durata del contratto, oppure no. La risposta, in entrambi i casi, è informazione.

Da leggere ora: Nvidia ora incassa l'affitto sui propri chip · OpenAI offre una quota a Washington

Domande frequenti

Quando esce ufficialmente DeepSeek V4 e cosa cambia?

DeepSeek ha annunciato il 30 giugno che la versione ufficiale di V4 arriva a metà luglio 2026, con finestra di contesto da 1 milione di token di serie e prezzi di punta sull'API: tariffe doppie nelle finestre giornaliere dalle 9:00 alle 12:00 e dalle 14:00 alle 18:00, orario lavorativo cinese.

Cosa succede agli endpoint DeepSeek esistenti?

Secondo la documentazione DeepSeek, i vecchi endpoint deepseek-chat e deepseek-reasoner diventano inaccessibili dopo il 24 luglio 2026, quindi le integrazioni costruite su di essi devono migrare alla gamma V4.

Come dovrebbero rispondere le aziende europee ai prezzi di punta dell'IA?

Sfruttando il fuso: i picchi comunicati finiscono verso mezzogiorno dell'Europa centrale, quindi conviene programmare i carichi rinviabili, come lotti ed embedding, nel pomeriggio e nella notte europei, e chiedere a ogni fornitore se i prezzi resteranno indipendenti dall'ora.

Ogni infrastruttura che conta finisce con i prezzi dell'ora di punta: le strade, l'elettricità e ora l'intelligenza. I fornitori vi stanno dicendo, nel linguaggio più chiaro che il commercio conosce, che il calcolo scarseggia e la domanda fissa il prezzo. Le aziende che progettano per questo fatto adesso, con code, calendari e livelli di carico, tratteranno il sovrapprezzo come una fabbrica tratta la tariffa notturna: come un costo altrui.

DeepSeek AI Pricing API Inference Cloud Costs AI Economy

Altro dal Servola Journal

AI Economy

Nvidia ora incassa l'affitto sui propri chip

Il 1 luglio 2026 Nvidia ha presentato revenue sharing e supporto al credito per i cloud IA: vende le GPU e trattiene una quota dell'affitto. Cosa significa per il prezzo del calcolo.

3 min di lettura

AI Economy

OpenAI offre una quota a Washington

Sam Altman propone di cedere circa il 5 per cento di OpenAI, circa 42,6 miliardi di dollari, a un fondo sovrano americano. Cosa significa un azionista statale per le imprese europee.

3 min di lettura

AI Economy

L'Europa costruisce il robot, l'America paga

NEURA Robotics ha raccolto fino a 1,4 miliardi di dollari il 10 giugno 2026 e la robotica è diventata il settore più finanziato d'Europa. Perché il denaro si è mosso verso l'IA incarnata e cosa significa per gli imprenditori.

3 min di lettura1 visualizzazioni

Servola

Servola aiuta i proprietari a costruire architetture di costo per l'IA che sopravvivono ai cambi di prezzo dei fornitori invece di assorbirli.

Richiedi un colloquio riservato Chi è Servola →

Servola è consulenza tecnologica per un numero ristretto di famiglie e family office. Quando una decisione non può essere delegata, sediamo dalla vostra parte del tavolo.

Servola Systems GmbH · Ludwigshafen, Germany · [email protected]

← Tutti gli articoli