Unternehmens- und Modell-Ranglisten · USA 70%→30% · Qualität vs. Volumen · Use-Case-Matrix · Q3-Prognose
Wer Claude Code, OpenClaw oder Cursor auf dem Mac betreibt, aber Modelle noch nach der Benchmark-Saison 2025 wählt, sollte zuerst messen, wer im Juni 2026 tatsächlich Tokens auf OpenRouter verbrennt—das ist näher an Ihrer Rechnung als jeder MMLU-Screenshot. Kernbefund: Laut OpenRouter Rankings überschritten chinesische Modelle 61 % des Entwickler-Traffics; US-Labs (Google, OpenAI, Anthropic zusammen) fielen in zwölf Monaten von etwa 70 % auf 30 %. DeepSeek führt Unternehmen mit 5,13 T wöchentlich (17,6 %), DeepSeek V4 Flash Modelle mit 619 B täglich. Inhalt: Dual-Board Juni, Ökonomie hinter dem US-Einbruch, Qualitäts- vs. Volumen-Spaltung (Claude Opus 4.8 Index 61,4), drei strukturelle Gründe für chinesische APIs, Use-Case-Matrix mit 9 Szenarien, Q3-Fenster (GPT-6, Opus 5, Gemini 4, DeepSeek V5, GLM 5.2, Grok 4.3+), fünf Makrotrends H2 2026, sechsstufiges modellagnostisches Runbook, Mac-Abnahme. Querverweise: LLM-Trends Juni, wöchentliche Token-Rankings, OpenClaw Multi-Modell-Routing.
OpenRouter aggregiert geroutete Tokens aus Millionen Produktions-API-Calls weltweit. Der Juni-Snapshot ist kein Presseblatt, sondern ein Live-Scoreboard. Lesen Sie entlang zweier Achsen: wöchentliches Volumen pro Anbieter und täglich aufgerufene SKUs.
| Rang | Unternehmen | Herkunft | Wöchentliche Tokens | Anteil |
|---|---|---|---|---|
| 1 | DeepSeek | China | 5,13T | 17,6% |
| 2 | Anthropic | USA | 4,34T | 14,8% |
| 3 | USA | 3,66T | 12,5% | |
| 4 | OpenAI | USA | 2,46T | 8,4% |
| 5 | Xiaomi | China | 2,42T | 8,3% |
| 6 | MiniMax | China | 2,37T | 8,1% |
| 7 | Tencent | China | 2,36T | 8,1% |
| 8 | Qwen (Alibaba) | China | 1,26T | 4,3% |
Die chinesischen Anbieter unter den Top 8 tragen allein rund 46 % des identifizierbaren Volumens; aggregiert überschritten chinesische Modelle im Juni 61 %.
| Rang | Modell | Unternehmen | Tägliche Tokens |
|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 619B |
| 2 | Hy3 Preview | Tencent | 451B |
| 3 | MiniMax M3 | MiniMax | 447B |
| 4 | MiMo-V2.5 | Xiaomi | 327B |
| 5 | DeepSeek V4 Pro | DeepSeek | 300B |
| 6 | Claude Opus 4.7 | Anthropic | 263B |
| 7 | Claude Opus 4.8 | Anthropic | ~200B |
| 8 | Claude Sonnet 4.6 | Anthropic | 178B |
| 9 | Gemini 3 Flash Preview | 156B | |
| 10 | Kimi K2.6 | Moonshot AI | ~150B |
Sieben der zehn Tages-Leader sind chinesische SKUs. Anthropic platziert dennoch drei Claude-Varianten—Premium bleibt in Produktion, nur nicht im Flash-Volumen.
Auswertungen auf OpenRouter-Basis (u. a. Bloomberg, Exponential View) zeigen: Im Juni 2025 hielten US-Labs zusammen etwa 70 %, im Juni 2026 nur noch 30 %. Die 40 Prozentpunkte wanderten nicht weg—sie flossen in chinesische Open-Weight- und Value-APIs, die Entwickler in den USA, Europa, Indien und darüber hinaus wählen.
Das ist keine «Inlandspräferenz», sondern reine Stückkosten-Rechnung. Ein Entwickler aus San Diego formulierte es knapp:
«Eine Stunde Coding kostet auf Claude etwa 10 Dollar—auf DeepSeek unter 50 Cent.»
Single-Vendor-Lock-in: Jeder Agent-Schritt auf dem teuersten Frontier-Modell zahlt Opus-Tarife für Aufgaben, die Flash-Tier mit 80–90 % Qualität abdeckt.
Benchmark-Lag: Leaderboards aktualisieren quartalsweise; OpenRouter-Anteile wöchentlich.
Agent-Volumen-Explosion: Programmier-Traffic stieg von ~11 % (Anfang 2025) auf über 50 % (Mitte 2026)—Batch-Loops verstärken Preisunterschiede 8–30×.
Compliance-Blindspots: Enterprise-Beschaffung und Indie-Routing folgen unterschiedlichen Kurven.
| Modell | Intelligence Index | SWE-bench Pro | Anmerkung |
|---|---|---|---|
| Claude Opus 4.8 | 61,4 (#1) | 69,2% | Long Context, Agents |
| GPT-5.5 | 59–60 | 63,1% | Ökosystem, Tool-Calls |
| Gemini 3.1 Pro | 57 | — | Härteste Reasoning-Tasks |
| Qwen 3.7 Max | 57 | — | Top chinesisches Closed Model |
| Claude Sonnet 4.6 | — | 80,8% (Verified) | Writing, Instruction-Following |
In einem 20-Task-Shootout gewann Opus 4.8 sechzehnmal, GPT-5.5 fünfmal, Gemini 3.1 Pro viermal. Bei Long Context war Opus nicht marginal besser—sondern in einer anderen Liga.
Claude Fable 5 erreichte kurz 100/100 (inkl. ~95 % SWE-bench Verified), fiel Mitte Juni 2026 wegen Exportbeschränkungen global aus dem Routing. Das ändert das Volumen-Board nicht, bestätigt aber: Die US-Qualitätsobergrenze kann über dem liegen, was die meisten heute routen dürfen.
Preis: MiniMax M3 0,60 $/M Input vs. Opus 4.8 5,00 $/M—etwa ein Achtel.
Good-enough: Completion, Übersetzung, Summaries: 80–90 % Frontier-Leistung.
Open Weights: DeepSeek V4, MiniMax M3—Self-Hosting, Data Residency.
Entscheidungsregel: Nach Task-Komplexität routen, nicht nach Marke. Frontier für die harten 5 %, Value-Tier für die restlichen 95 % des Volumens.
| Szenario | Empfohlenes Modell | Warum |
|---|---|---|
| Komplexes Coding / Langläufer-Agenten | Claude Opus 4.8 | Index #1, Long Context |
| Alltägliche Dev-Unterstützung | DeepSeek V4 Flash / MiMo-V2.5 | Preis-Leistung, Latenz |
| Günstigste Produktions-API | MiniMax M3 | 0,60 $/M, Open Weights |
| Ultra-Long Context (1M+) | Kimi K2.6 | 1M Fenster, fairer Preis |
| Google Workspace / Multimodal | Gemini 3.5 Flash | Workspace-Integration |
| Echtzeit-Web / X-Kontext | Grok 4.3 | Live-Infos von X/Twitter |
| Self-Hosted / On-Prem | GLM 5.2 / Kimi K2.6 | Starke Open-Weight-Coding-Optionen |
| Bildgenerierung mit lesbarem Text | ChatGPT Images 2.0 | Beste Textdarstellung |
| Bester Daily Chat | GPT-5.5 | 52,5 % weniger Halluzinationen vs. GPT-5.3 |
| Modell | Unternehmen | Fenster | Upgrades |
|---|---|---|---|
| GPT-6 | OpenAI | Aug–Sep 2026 | ~1,5M Context, stärkere Agents |
| Claude Opus 5 | Anthropic | ~Sep 2026 | Long-Horizon-Agent, MCP-Refresh |
| Gemini 4 | Q3 2026 | Multimodal: Video, Audio, Bild | |
| DeepSeek V5 | DeepSeek | Q3 2026 | Open Weights, ~1T Params, Ascend |
| GLM 5.2 | Zhipu AI | Q3 2026 | Open-Weight Coding/Reasoning |
| Grok 4.3+ | xAI | Q3 2026 | 1M Context, Echtzeit-Web |
«Bestes Modell» verliert Bedeutung: Fünf Frontier-Releases in 90 Tagen erzwingen workload-spezifische Rankings—Routing nach Komplexität, Latenz, Kosten.
Chinesisches Volumen steigt; Enterprise-Compliance deckelt: Indie-Routing kann 70 %+ erreichen, Fortune 500 bleibt an Residency und US-Kongress gebunden.
Agentic Performance wird Enterprise-KPI: Anthropic State of AI Agents 2026: 44 % Claude-API-Nutzung in Mathe- und Computer-Tasks.
IPO-Druck formt Preise: OpenAI und Anthropic signalisierten Juni 2026 IPO-Absicht—Margin-Druck validiert Zweimarkt-Routing.
Lokale Modelle nahe 80 % SWE-bench auf Consumer-Hardware: 32-GB-GPUs bis Mitte 2027 ~80 % Verified—Routine-Coding-API-Umsatz unter Druck.
Board-Baseline: openrouter.ai/rankings wöchentlich snapshotten—Anteilsdeltas, nicht nur Ränge.
Workloads taggen: frontier vs. routine. Frontier: Opus 4.8/GPT-5.5; Routine: DeepSeek V4 Flash/MiniMax M3.
Budgets & Fallbacks: Token-Caps, Tageslimits, 429-Fallback in OpenClaw/Claude Code.
20-Task-Probe: Gleiche Prompts, Siege nach Task-Typ zählen.
Dollar pro Outcome: Kosten pro PR, Ticket, Agent-Run—not pro Million Tokens isoliert.
VNC-Abnahme auf Remote-Mac: Gateway, OAuth, Keychain in GUI auf dem Agent-Host.
{
"routing_tiers": {
"frontier": ["anthropic/claude-opus-4.8", "openai/gpt-5.5"],
"routine": ["deepseek/deepseek-v4-flash", "minimax/minimax-m3"]
},
"budgets": { "daily_usd_cap": 25, "fallback_on_429": true },
"review_cadence": "weekly_openrouter_snapshot"
}
Der heutige Volumen-Leader ist nicht morgen die Qualitätsobergrenze. Routen bauen, die ohne App-Rewrite wechseln.
7-Tage-Rolling, Anthropic-Paradox, Rechnungsdaten.
Lesen →Top 10, sechs Makrotrends, Mac-Agent-Matrix.
Lesen →openclaw models, Kosten, Fallback, VNC.
Lesen →Nein. Token-Volumen misst Routing-Ökonomie; Opus 4.8 führt den Index mit 61,4. Value-Tier für Routine, Frontier für die harten 5 %. Abschnitt 03.
Agent-Batch wanderte zu APIs, die 8–30× günstiger sind und 80–90 % Qualität im Alltag liefern—Ökonomie, keine Regionalpräferenz.
Claude Opus 4.8 für Long-Context und Langläufer. Routine: DeepSeek V4 Flash/MiniMax M3. Matrix Abschnitt 04.
Primär/Fallback mit Budgets in OpenClaw/Claude Code, dann VNC auf Remote-Mac. Runbook Abschnitt 06, Multi-Modell-Checkliste.
Die Strukturgeschichte Juni 2026 lautet nicht «China hat gewonnen», sondern: Die wirtschaftliche Marge in der Modellschicht komprimiert sich. DeepSeek Januar 2025 bewies Frontier-Leistung ohne Frontier-Compute; Xiaomi, Tencent, MiniMax und Moonshot drückten Basispreise Richtung Boden.
US-Labs divergieren: OpenAI auf Ökosystemtiefe, Anthropic auf messbare Opus-Spitze bei Agent-Evals, Google auf Gemini-Flash-Breite. Die Mittelschicht—weder Claude-Niveau noch billig genug—hohlt sich am schnellsten aus.
Für Mac-Entwickler ist die versteckte Steuer selten nur der API-Tarif: schlafender Laptop, Keychain ohne GUI, OAuth beim A/B-Test dreier Q3-Modelle. Validieren Sie Primär-/Fallback-Paare auf einem Host mit GUI, bevor Sie Hardware kapitalisieren. VNCMac vermietet Mac-mini-Knoten für Multi-Modell-Agent-Routing—Preisseite, Startseite.