Il titolo raramente indica il modello più potente
Quando un laboratorio annuncia un nuovo modello e la stampa ne parla, gli imprenditori sono tentati di credere che il nome nel titolo sia la cosa più capace disponibile. Di solito non è così. L'attenzione recente di Anthropic è andata a Sonnet 5, ma Sonnet 5 è il livello intermedio bilanciato della famiglia Claude. Il modello di punta, il livello più capace, è Opus 4.8. Sotto Sonnet si trova Haiku, il livello rapido e a basso costo, accanto a Fable 5, un membro specializzato della stessa famiglia. OpenAI propone la stessa struttura: GPT-5.6 arriva come Sol, il modello di punta, Terra, il livello bilanciato posizionato a circa la metà del costo della generazione precedente a prestazioni simili, e Luna, il livello rapido e a costo più basso.
Questa è ormai la struttura standard in ogni laboratorio serio, ed esiste per una ragione. Un singolo modello non può essere al tempo stesso il più potente, il più economico e il più rapido. Così i laboratori dividono la famiglia in livelli e lasciano scegliere agli acquirenti. Il titolo tende a riguardare la versione più notiziabile o più diffusa, che spesso è il livello intermedio anziché il modello di punta. Leggere la stampa vi dirà cosa è stato lanciato. Non vi dirà quale livello serve alla vostra azienda.
Riserva il modello di punta, usa l'intermedio, scala il livello rapido
Il livello di punta giustifica il suo prezzo sui problemi davvero difficili: ragionamento legale o finanziario complesso, analisi a più passaggi dove un'ipotesi sbagliata invalida il risultato, codice complesso e lavoro in cui un errore è costoso da individuare in seguito. Per questa classe di compiti, pagare per Opus 4.8 o Sol è l'opzione economica, perché il costo di una risposta debole supera di gran lunga quello del modello migliore. È qui che non si deve risparmiare.
Il livello intermedio è dove si svolge in realtà la maggior parte della giornata. Sonnet 5 o Terra gestiranno la stesura, la sintesi, le risposte ai clienti, l'aggregazione della ricerca e il flusso costante di lavoro di routine a uno standard che la maggior parte dei team non riuscirà a distinguere dal modello di punta. Il livello rapido si occupa poi del carico ad alto volume e a basso rischio, la classificazione, l'etichettatura e l'elaborazione in massa che gira migliaia di volte all'ora, dove la velocità e il costo per chiamata contano più degli ultimi punti di capacità. Abbinate il livello al compito e spenderete dove conta per il risultato.
Come dovrebbe scegliere davvero un imprenditore
Non serve tenere traccia dei numeri di versione per prendere bene questa decisione. Serve una regola breve. Chiedetevi cosa succede se la risposta è sbagliata. Se una risposta sbagliata è costosa, lenta da individuare o difficile da correggere, indirizzate il compito al modello di punta. Se una risposta sbagliata è facile da notare e correggere, il livello intermedio è la scelta giusta e il risparmio è reale. Se il compito gira ad alto volume e ogni chiamata è a basso rischio, il livello rapido è costruito esattamente per questo. La stessa logica vale che vi standardizziate sulla famiglia Claude o sulla famiglia GPT, perché entrambe propongono gli stessi tre ruoli.
La trappola è acquistare in base al nome. Standardizzare tutto sul modello di punta significa pagare troppo su migliaia di chiamate di routine per una capacità che non viene mai usata. Standardizzare tutto sul modello che fa notizia significa sottodimensionare in silenzio quella manciata di problemi difficili che giustificavano l'adozione dell'IA. Nessuna delle due è una strategia. Gli imprenditori che riescono in questo trattano il livello come una scelta deliberata per ciascun carico di lavoro, allo stesso modo in cui non metterebbero mai il socio anziano alla fotocopiatrice né affiderebbero la fusione aziendale allo stagista.
Da leggere ora: Quando non puoi comprare il modello migliore · Claude Science e la due diligence R&S