Classement hebdomadaire OpenRouter ou benchmark MMLU — lequel est plus fiable ?

Les benchmarks mesurent les capacités limites ; le volume hebdomadaire de tokens reflète paiements réels et routage en production. Croiser les deux, mais la facture prouve qui est massivement appelé.

Pourquoi la part de tokens d'Anthropic baisse alors que les revenus restent élevés ?

Claude Opus coûte bien plus cher par million de tokens que DeepSeek Flash. Les entreprises paient la prime pour le raisonnement complexe, mais le trafic Agent batch migre vers des modèles bon marché.

Pourquoi les modèles chinois dépassent les États-Unis depuis des semaines ?

DeepSeek, Tencent Hy3 et MiniMax attirent par des prix API très bas et des licences ouvertes. Semaine 18–24 mai 2026 : Chine ~9,22T tokens, USA ~4,93T.

Comment les développeurs Mac suivent-ils le classement chaque semaine ?

Consulter openrouter.ai/rankings ; définir modèles principal/secours et budget dans OpenClaw/Claude Code ; valider Gateway et OAuth en VNC sur un Mac distant.

Classement hebdomadaire OpenRouter : les factures ne mentent pas

01

Pourquoi les données de facturation sont plus honnêtes que les benchmarks

MMLU, HumanEval et SWE-bench répondent à : quelle est la capacité maximale sur des jeux de données fixes ? OpenRouter, agrégateur API neutre, relie 300+ modèles de plus de 60 fournisseurs à plus de 8 millions d'utilisateurs et traite environ 100 billions de tokens par mois. Le classement compte les tokens entrants et sortants réellement routés. L'argent dépensé et le compute consommé ne mentent pas : les développeurs votent avec leur portefeuille pour la rapidité, la stabilité et le prix.

En 2026, les workflows Agent dominent. Les tâches de programmation passent d'environ 11 % du trafic début 2025 à plus de 50 % — premier usage isolé. Le rapport OpenRouter / a16z « 2025 AI Usage » (100 billions de métadonnées anonymes) note aussi : score benchmark et part de marché sont souvent inversement corrélés. Les modèles phares chers n'attirent pas automatiquement le plus de volume ; les modèles à prix extrême absorbent le trafic batch Agent.

1
Benchmark = plafond : runs uniques, prompts fixes — peu représentatifs des chaînes multi-outils.
2
Tokens hebdo = température : cinq semaines consécutives à la hausse signalent une demande réelle.
3
Lire deux axes : part de tokens et part de revenus en dollars séparent « roi du trafic » et « roi de la marge ».

02

Source et méthode (fenêtre glissante 7 jours)

Toutes les données proviennent de openrouter.ai/rankings. La période est hebdomadaire, débit de tokens sur 7 jours glissants — alignée sur la définition officielle. Dimensions clés : volume total hebdo (entrée+sortie), classement par modèle, parts par éditeur, et revenus USD vs part de tokens.

Fenêtre de capture : 18–24 mai 2026 (dernière semaine complète affichée à la rédaction). Consultez toujours les données live ; la méthode reste valable.

Ordre de grandeur : il y a un an, environ 2,4 billions de tokens par semaine ; aujourd'hui 28,9 billions — croissance d'environ 12× en douze mois. L'IA passe du pilote à l'échelle.

03

Semaine mondiale : 28,9 billions de tokens, cinquième hausse d'affilée

Indicateur	Valeur	Variation
Volume hebdomadaire mondial	28,9 billions de tokens	+7,4 % (5e semaine consécutive)
Modèles chinois	9,223 billions de tokens	+19,89 %
Modèles américains	4,93 billions de tokens	+16,27 %
Géopolitique	Chine quatre semaines devant les USA

Erreurs de lecture fréquentes :

1
Pic journalier = semaine : le classement roule sur 7 jours — ne pas mélanger avec un pic isolé.
2
Oublier le « reste du monde » : open source européen et modèles Stealth comptent aussi.
3
Données mensuelles obsolètes : Hy3 ou Owl Alpha peuvent croître de deux chiffres par semaine — mettre à jour le routage chaque semaine.
4
Rang sans prix unitaire : la tête du classement est souvent « très bon marché × très gros débit », pas le modèle de relecture finale.

04

Top 10 modèles de la semaine (au 24.05.2026)

Rang	Modèle	Éditeur	Tokens/semaine	WoW	Profil
1	DeepSeek-V4-Flash	DeepSeek (Chine)	3,43T	+66 %	Agent, prix minimal
2	Tencent Hy3 Preview	Tencent (Chine)	3,07T	+16 %	Nouveau, croissance explosive
3	Claude Sonnet 4.6	Anthropic (USA)	1,35T	—	1M contexte, code entreprise
4	DeepSeek-V3.2	DeepSeek (Chine)	1,31T	—	Économique, longue traîne
5	Owl Alpha	OpenRouter (stealth)	1,15T	+29 %	Agent gratuit, 1M contexte
6	Gemini 3 Flash Preview	Google (USA)	1,06T	—	Multimodal, science/médecine
7	DeepSeek-V4-Pro	DeepSeek (Chine)	1,00T	—	Flagship, raisonnement lourd
8	MiniMax M2.7	MiniMax (Chine)	806B	—	Long contexte, prix
9	Grok 4.1 Fast	xAI (USA)	721B	—	2M contexte, fort en droit
10	Step 3.5 Flash	StepFun (Chine)	673B	—	Rapide, batch

Note sources : rangs 1–2 et 5 (tokens hebdo et WoW) d'après National Business Daily sur OpenRouter du 18 au 24 mai 2026. Rangs 3–4, 6 et 8–10 recoupés avec le leaderboard public et analyses sectorielles. DeepSeek-V4-Pro à 1,00T dérivé de 5,74T série moins V4-Flash (3,43T) et V3.2 (1,31T). Kimi K2.6 (6e la semaine précédente) sort du top 10 et n'apparaît pas ici.

Matrice DeepSeek plutôt qu'un seul hit

V4-Flash, V4-Pro et V3.2 figurent ensemble dans le top neuf. La série totalise environ 5,74 billions de tokens par semaine (+25,9 % WoW) et dépasse Anthropic et Google côté éditeur pour la deuxième semaine consécutive. Conclusion citable : Flash porte le volume, Pro les tâches difficiles, V3.2 la longue traîne — matrice produit, pas un seul best-seller.

05

Éditeurs : tokens vs dollars — la double vérité

Montée des modèles chinois

Date	Part des modèles chinois (env.)
Début 2025	< 2 %
Février 2026	Première semaine devant les USA
Mai 2026	~45 %+, quatre semaines en tête

Paradoxe de la prime Anthropic

Anthropic tient environ 12 % de part de tokens (contre ~25 % il y a un an) mais environ 46 % des revenus en dollars. Les entreprises paient cher Claude Opus 4.6 et assimilés — le volume de tokens reste une fraction de DeepSeek Flash. Le trafic migre vers l'efficacité ; les marges restent chez le closed source premium.

Matrice de décision par segment

Segment	Exemples	Profil hebdo	Usage
Haute valeur · faible trafic	Claude Opus	Peu de tokens, gros revenus	Raisonnement entreprise, conformité
Milieu · trafic stable	Gemini Flash	Multimodal en croissance	Science, médecine, image+texte
Bas prix · fort trafic	DeepSeek / Hy3 / MiniMax / StepFun	Tête du classement	Agent, code, batch

06

Inversion benchmark / marché : labo vs production

Chaque point SWE-bench fait la une pendant que la production route en masse vers des Flash autour de 0,10 / 0,40 USD par million de tokens. Raisons :

1
Coût > score max : sur les appels Agent multiples, les tokens de sortie dominent la facture.
2
Stabilité > coup de génie : taux d'échec des outils et latence priment sur une réponse brillante isolée.
3
Le code est le champ de bataille : plus de 50 % du trafic est lié au code — le top du classement le reflète.

Point citable : DeepSeek-V4-Flash +66 % WoW sans semaine marketing SOTA — la facture est plus honnête que n'importe quel leaderboard.

07

Pourquoi ce classement hebdomadaire devient stratégique en 2026

Les investisseurs s'appuient sur des données type OpenRouter pour la commercialisation IA ; les développeurs pour un routage multi-éditeurs ; la recherche pour la géopolitique et les tendances d'architecture ; les médias pour « qui gagne vraiment ». Le volume de tokens est passé de métrique technique à baromètre commercial — mis à jour chaque semaine, public, rarement intégré aux checklists personnelles. Sur Mac, traiter ce classement comme un rapport hebdo évite de parier sur le mauvais modèle après chaque keynote.

08

Suivi hebdomadaire et routage — cinq étapes

1
Facture, pas keynote : chaque lundi ouvrir Rankings, comparer le WoW du top 3 à votre consommation OpenRouter.
2
Routage par scénario : Agent/batch → DeepSeek-V4-Flash ; raisonnement lourd → Claude Opus ; multimodal → Gemini Flash.
3
Surveiller les nouveaux entrants : Hy3 Preview, Owl Alpha — fort WoW = prochain candidat secours.
4
Budget et dégradation : dans OpenClaw/Claude Code, modèles principal/secours/relecture et plafond de tokens par tâche.
5
Acceptation GUI sur Mac : Gateway, OAuth et trousseau exigent l'interface macOS — SSH seul ne suffit pas. VNC sur Mac distant loué, test de 20 minutes (voir série OpenClaw).

Checklist d'acceptation : ① favori Rankings ; ② trois noms de modèles ; ③ tokens + estimation USD semaine passée ; ④ taux d'échec Agent ; ⑤ capture VNC Gateway 200 — alors seulement le « savoir-classement » devient opérationnel.

Pour aller plus loin

Tendances LLM juin 2026

Top 10, six tendances et acceptation Mac en cinq étapes.

Lire →

Routage multi-modèles OpenClaw

openclaw models, coûts et stratégie de repli.

Lire →

Louer un Mac pour OpenClaw

Agent 7×24 et planification ressources Ollama.

Lire →

FAQ

Questions fréquentes

Les benchmarks mesurent les capacités limites ; les tokens hebdo reflètent paiement et routage réels. Croiser les deux ; la facture prouve l'usage massif.

Claude Opus coûte bien plus par million de tokens que DeepSeek Flash. Les entreprises paient la prime ; le batch Agent migre vers des modèles bon marché — le paradoxe de la prime.

DeepSeek, Tencent Hy3, MiniMax : prix API bas et licences ouvertes pour Agent/code. Semaine 18–24 mai : Chine ~9,22T, USA ~4,93T tokens.

Rankings chaque semaine ; modèles et budget dans OpenClaw/Claude Code ; Mac distant VNC pour Gateway/OAuth. Voir section 08.

Conclusion

La troisième semaine de mai 2026 montre que le marché vote avec l'argent : les modèles open-weight chinois redessinent le paysage mondial par un coût extrême. Ce n'est pas seulement « le plus intelligent », mais le plus appelé qui fait avancer le déploiement. Une croissance hebdomadaire ×12 en un an fait du classement une routine développeur, pas un sujet de keynote.

Pour les utilisateurs Mac, la facture cachée n'est souvent pas le tarif API mais le Mac qui dort, les dialogues trousseau sans GUI et l'OAuth impossible en SSH seul. Changer le routage sans faire tourner le Gateway localement coûte plus qu'un mauvais modèle. Avant d'acheter du matériel, validez paires principal/secours en VNC sur Mac distant loué — 7×24 et acceptation graphique battent l'achat aveugle du numéro un hebdo.

Si vous suivez OpenRouter chaque semaine et faites tourner des Agents en permanence sur macOS, VNCMac propose des nœuds Mac mini physiques : bouton principal vers la page des tarifs, vue d'ensemble sur la page d'accueil.

Classement hebdomadaire OpenRouterLes données de facturation ne mentent pas — qui est le vrai roi ?

Pourquoi les données de facturation sont plus honnêtes que les benchmarks

Source et méthode (fenêtre glissante 7 jours)

Semaine mondiale : 28,9 billions de tokens, cinquième hausse d'affilée

Top 10 modèles de la semaine (au 24.05.2026)

Matrice DeepSeek plutôt qu'un seul hit

Éditeurs : tokens vs dollars — la double vérité

Montée des modèles chinois

Paradoxe de la prime Anthropic

Matrice de décision par segment

Inversion benchmark / marché : labo vs production

Pourquoi ce classement hebdomadaire devient stratégique en 2026

Suivi hebdomadaire et routage — cinq étapes

Tendances LLM juin 2026

Routage multi-modèles OpenClaw

Louer un Mac pour OpenClaw

Questions fréquentes

Conclusion

Classement hebdomadaire OpenRouter
Les données de facturation ne mentent pas — qui est le vrai roi ?