Classements entreprises et modèles · US 70%→30% · Qualité vs volume · Matrice use-case · Prévisions Q3
Si vous branchez Claude Code, OpenClaw ou Cursor sur Mac mais choisissez encore vos modèles d'après la saison benchmark 2025, qui consomme réellement des tokens sur OpenRouter en juin 2026 est le signal le plus proche de votre facture. Synthèse : d'après OpenRouter Rankings, les modèles d'origine chinoise ont dépassé 61 % du trafic développeur ; les labs US (Google, OpenAI, Anthropic réunis) sont passés d'environ 70 % à 30 % en douze mois. DeepSeek mène les entreprises à 5,13 T tokens hebdo (17,6 %), DeepSeek V4 Flash mène les modèles à 619 B/jour. Plan de l'article : double tableau juin, effondrement de la part US, séparation qualité/volume (Claude Opus 4.8 index 61,4), trois raisons structurelles des API chinoises, matrice use-case (9 scénarios), fenêtre Q3 (GPT-6, Opus 5, Gemini 4, DeepSeek V5, GLM 5.2, Grok 4.3+), cinq tendances macro H2 2026, runbook modèle-agnostique en six étapes, notes Mac. Voir aussi tendances LLM juin, classement hebdo tokens, routage multi-modèles OpenClaw.
OpenRouter agrège les tokens réellement routés par des millions de développeurs. Le snapshot de juin n'est pas un communiqué vendor — c'est un tableau de bord production. Deux axes : volume hebdomadaire par entreprise et SKU appelés chaque jour.
| Rang | Entreprise | Origine | Tokens hebdo | Part |
|---|---|---|---|---|
| 1 | DeepSeek | Chine | 5,13T | 17,6% |
| 2 | Anthropic | US | 4,34T | 14,8% |
| 3 | US | 3,66T | 12,5% | |
| 4 | OpenAI | US | 2,46T | 8,4% |
| 5 | Xiaomi | Chine | 2,42T | 8,3% |
| 6 | MiniMax | Chine | 2,37T | 8,1% |
| 7 | Tencent | Chine | 2,36T | 8,1% |
| 8 | Qwen (Alibaba) | Chine | 1,26T | 4,3% |
Les entreprises chinoises du top 8 représentent à elles seules environ 46 % du volume identifié ; l'agrégat chinois dépasse 61 % en juin 2026.
| Rang | Modèle | Entreprise | Tokens/jour |
|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 619B |
| 2 | Hy3 Preview | Tencent | 451B |
| 3 | MiniMax M3 | MiniMax | 447B |
| 4 | MiMo-V2.5 | Xiaomi | 327B |
| 5 | DeepSeek V4 Pro | DeepSeek | 300B |
| 6 | Claude Opus 4.7 | Anthropic | 263B |
| 7 | Claude Opus 4.8 | Anthropic | ~200B |
| 8 | Claude Sonnet 4.6 | Anthropic | 178B |
| 9 | Gemini 3 Flash Preview | 156B | |
| 10 | Kimi K2.6 | Moonshot AI | ~150B |
Sept des dix modèles journaliers sont chinois. Anthropic place trois variantes Claude — preuve que le premium reste en prod, sans atteindre le volume Flash.
Les courbes Bloomberg et Exponential View sur données OpenRouter sont nettes. En juin 2025, les labs US totalisaient ~70 %. En juin 2026, ~30 %. Les 40 points perdus sont allés vers des API chinoises open-weight choisies aux US, en Europe, en Inde et ailleurs.
Ce n'est pas une histoire de préférence nationale — c'est une histoire de coûts unitaires. Un développeur de San Diego résume :
« Une heure de code coûte environ 10 $ sur Claude, moins de 50 centimes sur DeepSeek. »
Lock-in mono-vendor : chaque étape Agent sur le modèle frontier le plus cher paie le tarif Opus pour des tâches couvertes à 80–90 % par le tier Flash.
Décalage benchmark : MMLU se met à jour trimestriellement ; la part OpenRouter, chaque semaine.
Explosion volume Agent : trafic programmation ~11 % début 2025 → >50 % mi-2026 ; les boucles batch amplifient l'écart 8–30×.
Angles morts compliance : achats enterprise et routing indie ne suivent pas la même courbe.
| Modèle | Intelligence Index | SWE-bench Pro | Notes |
|---|---|---|---|
| Claude Opus 4.8 | 61,4 (#1) | 69,2% | Long contexte, agents |
| GPT-5.5 | 59–60 | 63,1% | Écosystème, tool calls |
| Gemini 3.1 Pro | 57 | — | Raisonnement le plus dur |
| Qwen 3.7 Max | 57 | — | Top modèle chinois fermé |
| Claude Sonnet 4.6 | — | 80,8% (Verified) | Rédaction, instructions |
Sur 20 tâches identiques, Opus 4.8 en gagne 16, GPT-5.5 en gagne 5, Gemini 3.1 Pro en gagne 4. En long contexte, Opus n'était pas marginalement meilleur — il était dans une autre catégorie.
Claude Fable 5 a brièvement obtenu 100/100 (dont ~95 % SWE-bench Verified) avant de disparaître du routage global mi-juin 2026 (restrictions export). Le tableau volume ne change pas ; le plafond US peut dépasser ce que la plupart routent aujourd'hui.
Prix : MiniMax M3 0,60 $/M vs Opus 4.8 5,00 $/M — environ un huitième.
Qualité suffisante : complétion, traduction, synthèse — 80–90 % du frontier.
Poids ouverts : DeepSeek V4, MiniMax M3 — self-host, residency des données.
Règle : router par complexité de tâche, pas par marque. Frontier pour les 5 % les plus durs ; value-tier chinois pour les 95 % restants.
| Scénario | Modèle recommandé | Pourquoi |
|---|---|---|
| Coding complexe / agents longue durée | Claude Opus 4.8 | Index #1, long contexte |
| Assistance dev quotidienne | DeepSeek V4 Flash / MiMo-V2.5 | Prix-perf, latence |
| API prod la moins chère | MiniMax M3 | 0,60 $/M, open weights |
| Ultra-long contexte (1M+) | Kimi K2.6 | Fenêtre 1M, prix compétitif |
| Google Workspace / multimodal | Gemini 3.5 Flash | Intégration Workspace |
| Web temps réel / contexte X | Grok 4.3 | Infos live X/Twitter |
| Self-hosted / on-prem | GLM 5.2 / Kimi K2.6 | Open weights, coding solide |
| Génération d'images texte lisible | ChatGPT Images 2.0 | Meilleur rendu texte |
| Chat quotidien global | GPT-5.5 | 52,5 % moins d'hallucinations vs GPT-5.3 |
| Modèle | Entreprise | Fenêtre | Upgrades clés |
|---|---|---|---|
| GPT-6 | OpenAI | août–sep. 2026 | ~1,5M contexte, agents renforcés |
| Claude Opus 5 | Anthropic | ~sep. 2026 | Agent long horizon, refresh MCP |
| Gemini 4 | Q3 2026 | Saut multimodal vidéo/audio/image | |
| DeepSeek V5 | DeepSeek | Q3 2026 | Open weights, ~1T params, stack Ascend |
| GLM 5.2 | Zhipu AI | Q3 2026 | Open weights coding/raisonnement |
| Grok 4.3+ | xAI | Q3 2026 | 1M contexte, web temps réel |
« Meilleur modèle » perd son sens : cinq frontier en 90 jours → classements par workload ; couche de routage obligatoire.
Volume chinois monte ; compliance enterprise plafonne : indie peut viser 70 %+ ; Fortune 500 freinée par residency et Congrès US.
Performance agentique = KPI enterprise : State of AI Agents 2026 Anthropic — 44 % usage Claude API en maths/informatique.
Pression IPO sur les prix : OpenAI et Anthropic ont signalé une IPO en juin 2026 — marge publique accélère la tierisation.
Modèles locaux ~80 % SWE-bench sur GPU consumer : 32 Go d'ici mi-2027 — revenue API coding routinier sous pression.
Baseline du board : snapshot hebdo openrouter.ai/rankings, deltas de part.
Taguer les workloads : frontier vs routine. Frontier : Opus 4.8/GPT-5.5 ; routine : DeepSeek V4 Flash/MiniMax M3.
Budgets et fallbacks : caps tokens, plafond journalier, chaîne 429 dans OpenClaw/Claude Code.
Probe 20 tâches : mêmes prompts, victoires par type de tâche.
Dollars par outcome : coût par PR, ticket, run Agent.
Acceptation VNC sur Mac distant : Gateway, OAuth, Keychain en session GUI sur l'hôte Agent.
{
"routing_tiers": {
"frontier": ["anthropic/claude-opus-4.8", "openai/gpt-5.5"],
"routine": ["deepseek/deepseek-v4-flash", "minimax/minimax-m3"]
},
"budgets": { "daily_usd_cap": 25, "fallback_on_429": true },
"review_cadence": "weekly_openrouter_snapshot"
}
Le leader volume d'aujourd'hui n'est pas le plafond qualité de demain. Construisez des routes interchangeables sans réécrire l'app.
Volume 7 jours, paradoxe Anthropic premium.
Lire →Top 10, six macro-tendances, matrices Mac Agent.
Lire →openclaw models, coûts, fallback, VNC.
Lire →Non. Le volume mesure l'économie du routage ; Opus 4.8 mène l'index à 61,4. Value-tier chinois pour le volume routinier, frontier US pour les 5 % les plus durs. Section 03.
Batch Agent vers des API 8–30× moins chères avec 80–90 % qualité au quotidien — shift économique, pas préférence nationale.
Claude Opus 4.8 pour long contexte et agents longue durée. Routine : DeepSeek V4 Flash/MiniMax M3. Matrice section 04.
Primaire/fallback et budgets dans OpenClaw/Claude Code, puis acceptation VNC sur Mac distant. Runbook section 06, checklist multi-modèles.
L'histoire structurelle de juin 2026 n'est pas « la Chine a gagné » — c'est que la marge économique de la couche modèle se compresse. DeepSeek janvier 2025 a prouvé qu'on n'a pas besoin de compute frontier pour de la perf frontier ; Xiaomi, Tencent, MiniMax et Moonshot ont poussé les prix de base vers le plancher.
Les labs US divergent : OpenAI sur la profondeur d'écosystème, Anthropic sur le plafond Opus mesurable en evals agents, Google sur l'amplitude multimodale Gemini Flash. Le milieu de gamme — ni Claude-grade ni assez bon marché — se vide le plus vite.
Pour les développeurs Mac, la taxe cachée n'est rarement le seul tarif API : ordinateur endormi, Keychain sans GUI, OAuth pour A/B tester trois modèles Q3. Validez primaire/fallback sur un hôte en ligne avec GUI avant d'investir dans du matériel. VNCMac loue des Mac mini physiques pour le routage Agent multi-modèles — tarifs, accueil.