IA

Deux points sous Opus 4.6, cinq fois moins cher : Gemini 3.5 Flash refait le calcul

Susan Hill

Google a livré Gemini 3.5 Flash lundi à 1,50 dollar par million de tokens d’entrée et 9 dollars par million de tokens de sortie. Le nouveau modèle tient plus de 280 tokens de sortie par seconde, conserve la même fenêtre contextuelle d’un million de tokens que son prédécesseur, et se place à 55 sur l’Artificial Analysis Intelligence Index, neuf points au-dessus de Gemini 3 Flash. Mardi matin, un fil r/Anthropic avait déjà collé le graphique à côté de celui de Claude Opus 4.6 et posé la question que ce marché tourne autour depuis six mois : à partir de quand deux points d’avance sur un benchmark cessent de valoir un prix multiplié par cinq ?

L’Intelligence Index agrège un panier d’évaluations publiques — raisonnement, connaissance, code, mathématiques et résolution de tâches agentiques — en une note unique de 1 à 100. Claude Opus 4.6, en mode raisonnement adaptatif, est à 57. Gemini 3.5 Flash, sorti le 19 mai, est à 55. Les neuf points gagnés d’une version à l’autre constituent le plus grand bond que Flash ait jamais réalisé d’une seule génération à la suivante, assez pour que le nouveau modèle égale le précédent Sonnet d’Anthropic en intelligence brute, à une fraction du coût de Sonnet.

Le cadrage « plus intelligent » que le fil Reddit a utilisé exagère l’écart en faveur de Flash. Sur l’Intelligence Index pur, Opus 4.6 reste devant de deux points. Le graphique qui a fait exploser le fil n’est pas l’Intelligence Index isolé. C’est la vue efficacité-d’intelligence contre coût, où l’axe fait un travail différent, et où Flash 3.5 ne se contente pas de battre Opus 4.6. Il se trouve dans une classe où personne d’autre n’est à proximité.

Opus 4.6 facture environ 6,25 dollars par million de tokens d’entrée et 25 dollars par million de sortie. Flash facture 1,50 et 9. Pour une charge de chat pondérée deux pour un en faveur de la sortie, le rapport effectif s’installe plus près de 4,5x que du « cinq fois » rond du titre. L’arrondi est honnête. La vitesse aggrave le tableau pour le vaisseau amiral : Flash 3.5 tient plus de 280 tokens de sortie par seconde, Opus 4.6 en mode raisonnement maximum tourne autour d’un dixième de ce rythme sur la même suite de tests. Pour des produits où un utilisateur fixe un curseur — assistants de code, agents de support, tout flux interactif — la latence est une fonctionnalité que le prix ne rachète pas.

Il y a un an, l’argument pour acheter le modèle le plus cher tenait en une ligne. Le saut qualitatif vers le palier supérieur était assez net pour que l’écart de prix soit une erreur d’arrondi face à la valeur livrée. Le graphique que le fil a posté est un autre graphique. Le coût marginal des deux derniers points d’intelligence est devenu la décision de prix entière pour les charges de production, et l’erreur d’arrondi tombe désormais plus près de 4,75 dollars sur chaque six dollars dépensés.

Il y a un argument net pour garder Opus 4.6 dans une pile. Raisonnement à contexte long sur des centaines de pages, boucles d’agent où les erreurs s’additionnent au fil des étapes, analyse documentaire où un écart de deux points sur une note agrégée cache des avantages bien plus marqués sur des tâches précises. Opus reste le modèle vers lequel un ingénieur se tourne quand le mode de défaillance est « la réponse était fausse », pas « la réponse est arrivée en retard ». La part des charges de production qui ressemblent à cela se réduit. Elle n’est pas nulle, et c’est précisément la tranche où les 25 dollars par million gagnent leur salaire.

Les tours de chat qui font la majorité des tokens facturables — rédaction, résumé, classification, traduction, autocomplétion de code, raisonnement face client — tiennent tous à la portée de Flash. La question que les équipes d’ingénierie se posent chaque trimestre n’est plus « quel modèle est le meilleur ». C’est « quel modèle rend le plus par dollar à latence acceptable ». Cette seconde question, Flash la remporte aujourd’hui avec une marge qui ne demande aucune subtilité d’interprétation.

Le cadrage secondaire du fil, selon lequel le consensus partout est qu’Opus 4.6 est meilleur que 4.7, mérite un traitement plus prudent. C’est anecdotique. Les deux dernières versions d’Opus d’Anthropic ont reçu des retours partagés sur les évaluations de code et le sérieux d’utilisation d’outils, certaines équipes signalant des régressions sur des boucles d’agent longues en 4.7 et d’autres rapportant des gains nets sur des charges identiques. Les deux observations peuvent être vraies en même temps quand le comportement est ajusté sur de nombreux axes entre versions mineures. Les deux modèles tiennent en moins d’un point l’un de l’autre sur l’index public, donc la division de la communauté ressemble plus à un débat de goût qu’à un débat de capacité. Ce qui n’est pas en discussion, c’est que le prix d’aucun des deux Opus ne bouge.

Le signal plus profond dans la conversation Reddit est ce sur quoi les utilisateurs n’argumentaient pas. Personne dans le fil n’a défendu le prix d’Opus sur les principes généraux. Les défenses proposées étaient spécifiques à une charge. « Opus me bat encore sur cette boucle d’agent. » « Opus reste dans notre pipeline de revue de documents. » C’est réel, mais ce sont des défenses de charge, pas des défenses de vaisseau amiral. Un vaisseau amiral est censé gagner sur l’ensemble, pas sur une voie précise.

Deux points d’écart d’intelligence. Cinq fois le prix. Six fois l’avantage de vitesse dans l’autre sens. Une fenêtre contextuelle d’un million de tokens à 1,50 dollar le million d’entrée. Entrée multimodale, Elo sur tâches agentiques au-dessus de 1650, remise de quatre-vingt-dix pour cent sur l’entrée mise en cache. La réponse d’Anthropic au trimestre prochain racontera sa propre histoire. L’argument le plus difficile à rédiger, en mai 2026, est celui qu’un commercial doit emporter en réunion client.

Plus comme ceci

Discussion

Il y a 0 commentaire.