Naglówek rzadko wskazuje najsilniejszy model
Gdy laboratorium oglasza nowy model, a prasa go podchwytuje, wlaściciele firm sklonni są zakladać, że nazwa z naglówka oznacza najbardziej zdolne dostępne narzędzie. Zwykle tak nie jest. Ostatnia uwaga Anthropic skupila się na Sonnet 5, ale Sonnet 5 to zrównoważony poziom średni rodziny Claude. Flagowiec, czyli poziom najbardziej zdolny, to Opus 4.8. Poniżej Sonnet znajduje się Haiku, poziom szybki i tani, obok Fable 5, wyspecjalizowanego członka tej samej rodziny. OpenAI dostarcza ten sam ksztalt: GPT-5.6 pojawia się jako Sol, flagowiec, Terra, poziom zrównoważony pozycjonowany przy okolo polowie kosztu poprzedniej generacji przy zbliżonej wydajności, oraz Luna, poziom szybki i o najniższym koszcie.
To dziś standardowa struktura w każdym poważnym laboratorium i istnieje ona nie bez powodu. Pojedynczy model nie może być jednocześnie najsilniejszy, najtańszy i najszybszy. Dlatego laboratoria dzielą rodzinę na poziomy i pozwalają kupującym wybierać. Naglówek zwykle przypada temu wydaniu, które jest najbardziej medialne lub najszerzej wdrożone, a to często poziom średni, a nie flagowiec. Lektura prasy powie ci, co zostalo wydane. Nie powie ci, który poziom pasuje do twojej firmy.
Zarezerwuj flagowca, uruchamiaj poziom średni, skaluj poziom szybki
Poziom flagowy zasluguje na swoją wyższą cenę przy naprawdę trudnych problemach: gęstym rozumowaniu prawnym lub finansowym, wieloetapowej analizie, w której jedno blędne zalożenie unieważnia wynik, zlożonym kodzie oraz pracy, w której późne wychwycenie blędu jest kosztowne. Dla tej klasy zadań placenie za Opus 4.8 lub Sol jest opcją tanią, ponieważ koszt slabej odpowiedzi przewyższa koszt lepszego modelu. To miejsce, w którym nie oszczędzasz.
Poziom średni to obszar, w którym faktycznie toczy się większość dnia. Sonnet 5 lub Terra poradzą sobie z redagowaniem, streszczaniem, odpowiedziami dla klientów, syntezą badań oraz stalym strumieniem rutynowej pracy umyslowej na poziomie, którego większość zespolów nie odróżni od flagowca. Poziom szybki przejmuje wtedy obciążenie o dużym wolumenie i niskiej stawce, czyli klasyfikację, tagowanie i masowe przetwarzanie uruchamiane tysiące razy na godzinę, gdzie szybkość i koszt na wywolanie liczą się bardziej niż ostatnie kilka punktów zdolności. Dopasuj poziom do zadania, a wydasz pieniądze tam, gdzie zmieniają one wynik.
Jak wlaściciel powinien naprawdę wybierać
Nie musisz śledzić numerów wersji, by podjąć tę decyzję dobrze. Potrzebujesz krótkiej zasady. Zapytaj, co się stanie, jeśli odpowiedź jest blędna. Jeśli blędna odpowiedź jest kosztowna, trudna do wykrycia lub trudna do cofnięcia, skieruj zadanie do flagowca. Jeśli blędną odpowiedź latwo zauważyć i poprawić, poziom średni jest wlaściwym wyborem, a oszczędności są realne. Jeśli zadanie dziala przy dużym wolumenie, a każde wywolanie ma niską stawkę, poziom szybki jest stworzony dokladnie do tego. Ta sama logika obowiązuje niezależnie od tego, czy standaryzujesz na rodzinie Claude, czy na rodzinie GPT, bo obie dostarczają te same trzy role.
Pulapką jest kupowanie po nazwie. Standaryzacja wszystkiego na flagowcu oznacza przeplacanie przez tysiące rutynowych wywolań za zdolności, które nigdy nie zostają wykorzystane. Standaryzacja wszystkiego na modelu z naglówków oznacza ciche niedoposażenie tej garstki trudnych problemów, które w ogóle uzasadnily wprowadzenie AI. Żadne z tych podejść nie jest strategią. Wlaściciele, którzy robią to dobrze, traktują poziom jako świadomy wybór dla każdego obciążenia, tak samo jak nigdy nie posadziliby starszego partnera przy kserokopiarce ani nie powierzyli fuzji stażyście.
Czytaj dalej: Gdy najlepszego modelu nie da się kupić · Claude Science a Twoje due diligence w B+R