Overskriften er sjældent den stærkeste model
Når et laboratorium annoncerer en ny model, og pressen løber med den, fristes ejere til at antage, at navnet i overskriften er det mest kapable, der findes. Det er det som regel ikke. Anthropics seneste opmærksomhed gik til Sonnet 5, men Sonnet 5 er det balancerede mellemniveau i Claude-familien. Flagskibet, det mest kapable niveau, er Opus 4.8. Under Sonnet sidder Haiku, det hurtige og billige niveau, sammen med Fable 5, et specialiseret medlem af samme familie. OpenAI leverer den samme form: GPT-5.6 ankommer som Sol, flagskibet, Terra, det balancerede niveau placeret til omkring halvdelen af prisen for den foregående generation ved tilsvarende ydeevne, og Luna, det hurtige og billigste niveau.
Dette er nu standardstrukturen på tværs af ethvert seriøst laboratorium, og den findes af en grund. En enkelt model kan ikke samtidig være den stærkeste, den billigste og den hurtigste. Så laboratorier deler familien op i niveauer og lader købere vælge. Overskriften lander typisk på den udgivelse, der er mest nyhedsværdig eller mest udbredt, hvilket ofte er mellemniveauet snarere end flagskibet. At læse pressen fortæller dig, hvad der blev lanceret. Det fortæller dig ikke, hvilket niveau der hører hjemme i din virksomhed.
Reserver flagskibet, kør mellemniveauet, skaler det hurtige niveau
Flagskibsniveauet fortjener sin merpris på reelt svære problemer: tæt juridisk eller finansiel ræsonnement, analyser i flere trin, hvor en enkelt forkert antagelse ugyldiggør resultatet, kompleks kode og arbejde, hvor en fejl er dyr at opdage senere. For den slags opgaver er det det billige valg at betale for Opus 4.8 eller Sol, fordi prisen for et svagt svar overskygger prisen for den bedre model. Det er her, du ikke skal spare.
Mellemniveauet er der, hvor det meste af dagen faktisk forløber. Sonnet 5 eller Terra håndterer udkast, opsummeringer, kundesvar, syntese af research og den støde strøm af rutinemæssigt videnarbejde til en standard, de fleste teams ikke vil kunne skelne fra flagskibet. Det hurtige niveau tager så belastningen med store mængder og lav risiko, klassificeringen og taggingen og masseforarbejdningen, der køres tusindvis af gange i timen, hvor hastighed og pris pr. kald betyder mere end de sidste par point af kapabilitet. Match niveauet til opgaven, og du bruger penge der, hvor det ændrer resultatet.
Sådan bør en ejer faktisk vælge
Du behøver ikke at holde styr på versionsnumre for at træffe denne beslutning godt. Du har brug for en kort regel. Spørg, hvad der sker, hvis svaret er forkert. Hvis et forkert svar er dyrt, langsomt at opdage eller svært at vende, så rut opgaven til flagskibet. Hvis et forkert svar er billigt at få øje på og rette, er mellemniveauet det rigtige valg, og besparelsen er reel. Hvis opgaven køres i store mængder, og hvert kald har lav risiko, er det hurtige niveau bygget til præcis det. Den samme logik holder, uanset om du standardiserer på Claude-familien eller GPT-familien, fordi begge leverer de samme tre roller.
Fælden er at købe efter navn. At standardisere alt på flagskibet betyder, at du betaler for meget på tværs af tusindvis af rutinekald for kapabilitet, der aldrig bliver brugt. At standardisere alt på modellen i overskrifterne betyder, at du stille og roligt giver for lidt kraft til den håndfuld svære problemer, der overhovedet retfærdiggjorde at bringe AI ind. Ingen af delene er en strategi. De ejere, der får dette rigtigt, behandler niveauet som et bevidst valg pr. arbejdsbyrde, på samme måde som de aldrig ville sætte seniorpartneren til at fotokopiere eller overlade fusionen til praktikanten.
Læs videre: Når du ikke kan købe den bedste model · Claude Science og din F og U-due diligence