Cosa ha annunciato DeepSeek

Il 30 giugno 2026 DeepSeek ha comunicato che la versione ufficiale di V4 arriverà a metà luglio, promuovendo l'anteprima disponibile dal 24 aprile, come riportato da TechNode. La novità principale non è un benchmark. È un meccanismo di prezzo: per la prima volta su una grande API di IA, i token costeranno in modo diverso a seconda dell'ora, con tariffe raddoppiate nelle finestre giornaliere dalle 9:00 alle 12:00 e dalle 14:00 alle 18:00, l'orario lavorativo cinese, e la tariffa fuori punta invariata.

I modelli in sé sono consistenti: la finestra di contesto da 1 milione di token diventa standard su tutta la gamma, V4-Pro è un progetto mixture-of-experts da 1.600 miliardi di parametri con 49 miliardi attivi, V4-Flash un modello da 284 miliardi con 13 miliardi attivi. La documentazione di DeepSeek aggiunge una scadenza dura: i vecchi endpoint deepseek-chat e deepseek-reasoner diventano inaccessibili dopo il 24 luglio, quindi le integrazioni esistenti devono migrare, che il nuovo contatore piaccia o no.

Perché un laboratorio prezza come un'azienda elettrica

La tariffazione per fasce esiste in un solo tipo di mercato: capacità fissa, domanda oscillante. Le reti elettriche l'hanno inventata perché lo stoccaggio era caro e il picco di domanda dimensionava l'intero sistema. Che un laboratorio di IA ricorra ora allo stesso strumento è un'ammissione che vale più di qualunque keynote: la capacità di inferenza è finita, le GPU non fanno la fila educatamente, e il token marginale delle 10:30 di un martedì costa all'operatore più dello stesso token a mezzanotte.

Rompe anche un'ipotesi comoda. Da due anni il settore ripete che l'intelligenza costa meno ogni trimestre. Per token, resta vero. Ma il nuovo meccanismo significa che il prezzo della stessa richiesta non è più una costante, e chi ha pianificato su costi unitari piatti possiede ora un piccolo problema di trading energetico. Appena un fornitore dimostra che i clienti accettano prezzi di punta, tutti gli altri hanno ogni incentivo a seguirlo.

Il vantaggio orario europeo

Per i compratori europei la geografia delle finestre di punta è insolitamente favorevole. Le ore di punta comunicate cadono tra le 3:00 e le 6:00 e tra le 8:00 e le 12:00, ora legale dell'Europa centrale, quella di Milano o Roma. Da mezzogiorno, l'intero pomeriggio e la sera lavorativi corrono fuori punta. Un'azienda europea che usa DeepSeek paga la tariffa scontata per la maggior parte della propria giornata, mentre un concorrente cinese paga il doppio durante la sua.

La mossa pratica è architetturale, non contrattuale: separare le chiamate critiche per latenza da quelle rinviabili. Elaborazioni notturne a lotti, embedding, reindicizzazioni, valutazioni e report possono essere programmati nelle finestre fuori punta con una coda e una voce di cron. Questa disciplina vale la pena anche se non userete mai DeepSeek, perché la tariffazione oraria è ormai dimostrata, e la versione del vostro fornitore dista una riunione di prodotto.

Cosa fare prima di metà luglio

Tre azioni stanno nelle due settimane prima del rilascio. Prima: chi usa gli endpoint in pensionamento deepseek-chat o deepseek-reasoner ha bisogno di un piano di migrazione prima del 24 luglio, testato, non solo pianificato. Seconda: i team che usano qualunque API di IA a consumo dovrebbero etichettare ora i carichi come rinviabili o interattivi, così la pianificazione diventa poi una modifica di configurazione. Terza: chi possiede il budget IA dovrebbe modellare la spesa con un prezzo a due fasce e fare a ogni fornitore una domanda al rinnovo: vi impegnate a prezzi indipendenti dall'ora per la durata del contratto, oppure no. La risposta, in entrambi i casi, è informazione.