Le modèle qui fait les titres est rarement le plus puissant

Quand un laboratoire annonce un nouveau modèle et que la presse s'en empare, les dirigeants sont tentés de croire que le nom qui fait les titres désigne l'outil le plus performant disponible. Ce n'est généralement pas le cas. L'attention récente d'Anthropic s'est portée sur Sonnet 5, mais Sonnet 5 est le niveau intermédiaire équilibré de la famille Claude. Le modèle phare, le niveau le plus performant, est Opus 4.8. Sous Sonnet se trouve Haiku, le niveau rapide et à faible coût, aux côtés de Fable 5, un membre spécialisé de la même famille. OpenAI propose la même structure: GPT-5.6 arrive sous la forme de Sol, le modèle phare, de Terra, le niveau équilibré positionné à environ la moitié du coût de la génération précédente pour une performance similaire, et de Luna, le niveau rapide et le moins coûteux.

C'est aujourd'hui la structure standard chez tout laboratoire sérieux, et elle existe pour une raison. Un seul modèle ne peut pas être à la fois le plus puissant, le moins cher et le plus rapide. Les laboratoires divisent donc la famille en niveaux et laissent les acheteurs choisir. Les titres tombent généralement sur la sortie la plus médiatique ou la plus largement déployée, qui est souvent le niveau intermédiaire plutôt que le modèle phare. Lire la presse vous dira ce qui a été lancé. Cela ne vous dira pas quel niveau convient à votre entreprise.

Réservez le modèle phare, utilisez le niveau intermédiaire, déployez le niveau rapide

Le modèle phare justifie son prix sur des problèmes réellement difficiles: un raisonnement juridique ou financier dense, une analyse en plusieurs étapes où une seule hypothèse erronée invalide le résultat, du code complexe et un travail où une erreur coûte cher à détecter plus tard. Pour cette catégorie de tâche, payer pour Opus 4.8 ou Sol est l'option économique, car le coût d'une réponse médiocre dépasse de loin celui du meilleur modèle. C'est là qu'il ne faut pas économiser.

Le niveau intermédiaire est là où se déroule réellement la majeure partie de la journée. Sonnet 5 ou Terra géreront la rédaction, la synthèse, les réponses aux clients, l'agrégation de recherches et le flux constant de travail intellectuel courant à un niveau que la plupart des équipes ne sauront pas distinguer du modèle phare. Le niveau rapide prend ensuite en charge la charge à fort volume et à faible enjeu: la classification, l'étiquetage et le traitement en masse qui s'exécutent des milliers de fois par heure, où la vitesse et le coût par appel comptent davantage que les derniers points de performance. Adaptez le niveau à la tâche et vous dépensez votre argent là où il change le résultat.

Comment un dirigeant devrait réellement choisir

Vous n'avez pas besoin de suivre les numéros de version pour bien prendre cette décision. Vous avez besoin d'une règle courte. Demandez-vous ce qui se passe si la réponse est fausse. Si une réponse fausse coûte cher, est lente à détecter ou difficile à corriger, orientez la tâche vers le modèle phare. Si une réponse fausse est facile à repérer et à corriger, le niveau intermédiaire est le bon choix et les économies sont réelles. Si la tâche s'exécute à fort volume et que chaque appel comporte peu d'enjeux, le niveau rapide est conçu exactement pour cela. La même logique vaut que vous standardisiez sur la famille Claude ou sur la famille GPT, car les deux proposent les mêmes trois rôles.

Le piège est d'acheter d'après le nom. Tout standardiser sur le modèle phare revient à surpayer, sur des milliers d'appels courants, une puissance qui ne sert jamais. Tout standardiser sur le modèle qui fait les titres revient à sous-équiper discrètement la poignée de problèmes difficiles qui justifiaient au départ l'adoption de l'IA. Ni l'un ni l'autre n'est une stratégie. Les dirigeants qui réussissent traitent le niveau comme un choix délibéré par charge de travail, de la même manière qu'ils ne confieraient jamais les photocopies à l'associé senior ni la fusion au stagiaire.