7-Tage-Rolling-Token · 28,9 Billionen pro Woche · China vs. USA · Anthropic-Paradox · Agent-Routing in fünf Schritten
Wenn Sie gerade ein Modell für Ihren Agent wählen und von Benchmark-Screenshots auf Keynotes überfordert sind, zählt wer wirklich aufruft, wie viel Token pro Woche verbrannt wird und wohin die Rechnung zeigt — das ist näher an Produktion als jeder Labor-Score. Fazit: Nach OpenRouter Rankings (7-Tage-Rolling) erreichte die Woche vom 18. bis 24. Mai 2026 weltweit 28,9 Billionen Token; DeepSeek-V4-Flash führt mit 3,43T. Chinesische Modelle liegen seit vier Wochen vor den USA; Anthropic zeigt das Prämien-Paradox: sinkender Token-Anteil, hohe Dollar-Einnahmen. Dieser Artikel: Abrechnung vs. Benchmark, Methodik, Top 10, Hersteller-Doppelwahrheit, Benchmark-Umkehr, wöchentliches Tracking und Routing in fünf Schritten, plus Mac-Abnahme für OpenClaw/Claude Code. Querverweise: LLM-Trends Juni, ds4 lokale Inferenz.
MMLU, HumanEval und SWE-bench beantworten: Wie gut ist ein Modell auf festen Datensätzen im Limit? OpenRouter aggregiert als neutrale API-Schicht 300+ Modelle von über 60 Anbietern für mehr als 8 Millionen Nutzer und verarbeitet monatlich rund 100 Billionen Token. Das Ranking zählt echte ein- und ausgehende Token, die über die Plattform geroutet werden. Ausgegebene Dollar und verbrauchte Rechenleistung lügen nicht: Entwickler stimmen mit dem Geldbeutel für Schnelligkeit, Stabilität und Preis ab.
2026 dominieren Agent-Workflows den Verkehr. Programmieraufgaben stiegen laut Plattformdaten von etwa 11 % Anfang 2025 auf über 50 % — größter Einzelzweck. Der OpenRouter-/a16z-Bericht «2025 AI Usage» (100 Billionen anonyme Token-Metadaten) zeigt zudem: Benchmark-Score und Marktanteil korrelieren oft invers. Teure Flaggschiffe bekommen nicht automatisch das meiste Volumen; extrem preiswerte Modelle schlucken Agent-Batch-Traffic.
Benchmark = Obergrenze: Einmalige Runs mit fixen Prompts spiegeln keine Mehrfach-Tool-Calls und lange Reasoning-Ketten wider.
Wochen-Token = Puls: Fünf aufeinanderfolgende Wochen mit Plus bedeuten echte Nachfrage, kein Marketing-Peak.
Zwei Achsen lesen: Token-Anteil und Dollar-Umsatzanteil trennen «Traffic-König» von «Margen-König».
Alle Zahlen stammen von openrouter.ai/rankings. Die Statistikperiode ist wöchentlich, rollierend über sieben Tage Token-Durchsatz — identisch zur offiziellen Plattform-Definition. Kerndimensionen: wöchentliches Token-Gesamtvolumen (Input+Output), Modell-Ranking, Hersteller-Marktanteile sowie Dollar-Umsatz vs. Token-Anteil.
Erfassungsfenster: 18.–24. Mai 2026 (zum Redaktionszeitpunkt die jüngste vollständige Woche auf der Seite). Lesen Sie später immer die Live-Daten; die Lesart bleibt gültig.
Größenordnung: Vor etwa einem Jahr lag das Wochenvolumen bei rund 2,4 Billionen Token, heute 28,9 Billionen — etwa 12× in zwölf Monaten. KI-Anwendungen sind von «Pilot» zu «Skalierung» gewechselt.
| Kennzahl | Wert | Veränderung |
|---|---|---|
| Globales Wochenvolumen | 28,9 Billionen Token | +7,4 % (5. Woche in Folge) |
| Chinesische Modelle | 9,223 Billionen Token | +19,89 % |
| US-Modelle | 4,93 Billionen Token | +16,27 % |
| Geopolitik | China vier Wochen in Folge vor den USA | |
Typische Fehlinterpretationen:
Tagespeak als Wochenwert: Das Ranking rollt sieben Tage — nicht mit Einzelspitzen vermischen.
«Rest der Welt» ignorieren: Neben China und USA laufen europäische Open-Source- und Stealth-Modelle mit.
Veraltete Monatsdaten: Hy3 oder Owl Alpha können wöchentlich zweistellig wachsen — Routing wöchentlich prüfen.
Nur Rang, nicht Preis: Spitzenplätze sind oft «extrem günstig × extrem viel Durchsatz», nicht automatisch das finale Review-Modell.
| Rang | Modell | Anbieter | Wochen-Token | WoW | Profil |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek (China) | 3,43T | +66 % | Agent-Standard, Minimalpreis |
| 2 | Tencent Hy3 Preview | Tencent (China) | 3,07T | +16 % | Neu, explosives Wachstum |
| 3 | Claude Sonnet 4.6 | Anthropic (USA) | 1,35T | — | 1M Kontext, Enterprise-Coding |
| 4 | DeepSeek-V3.2 | DeepSeek (China) | 1,31T | — | Günstig, Long-Tail & Rollenspiel |
| 5 | Owl Alpha | OpenRouter (Stealth) | 1,15T | +29 % | Gratis-Agent, 1M Kontext |
| 6 | Gemini 3 Flash Preview | Google (USA) | 1,06T | — | Multimodal, Wissenschaft/Medizin |
| 7 | DeepSeek-V4-Pro | DeepSeek (China) | 1,00T | — | Flaggschiff, schwere Inferenz |
| 8 | MiniMax M2.7 | MiniMax (China) | 806B | — | Langer Kontext, Preis |
| 9 | Grok 4.1 Fast | xAI (USA) | 721B | — | 2M Kontext, Legal stark |
| 10 | Step 3.5 Flash | StepFun (China) | 673B | — | Schnell, Batch |
Datenhinweis: Plätze 1–2 und 5 (Wochen-Token und WoW) stammen aus National Business Daily zu OpenRouter 18.–24. Mai 2026. Plätze 3–4, 6 und 8–10 wurden mit dem öffentlichen Leaderboard und Branchenanalysen abgeglichen. DeepSeek-V4-Pro mit 1,00T ergibt sich aus 5,74T Seriensumme minus V4-Flash (3,43T) und V3.2 (1,31T). Kimi K2.6 (Vorwoche Rang 6) fiel aus den Top 10 und fehlt in der Tabelle.
V4-Flash, V4-Pro und V3.2 stehen gleichzeitig in den Top Neun. Die Serie summiert auf etwa 5,74 Billionen Token pro Woche (+25,9 % WoW) und überholt Anthropic sowie Google im Hersteller-Ranking zum zweiten Mal in Folge. Kernaussage: Flash trägt Volumen, Pro schwere Jobs, V3.2 fängt Long-Tail ab — Produktmatrix statt Einzel-Bestseller.
| Zeitpunkt | Anteil chinesischer Modelle (ca.) |
|---|---|
| Anfang 2025 | < 2 % |
| Februar 2026 | Erste Woche vor den USA |
| Mai 2026 | ~45 %+, vier Wochen Spitze |
Anthropic liegt bei etwa 12 % Token-Anteil (vor einem Jahr ~25 %), hält aber rund 46 % Dollar-Umsatz. Unternehmen zahlen für Claude Opus 4.6 und ähnliche Modelle Premiumpreise — das Token-Volumen bleibt ein Bruchteil von DeepSeek Flash. Traffic wandert zur Effizienz, die Margen bleiben beim Premium-Closed-Source-Lager.
| Segment | Beispiele | Wochenprofil | Einsatz |
|---|---|---|---|
| Hochwert · wenig Traffic | Claude Opus | Wenig Token, viel Umsatz | Enterprise-Reasoning, Compliance |
| Mittel · stabiler Traffic | Gemini Flash | Multimodal wächst | Wissenschaft, Medizin, Bild+Text |
| Günstig · hoher Traffic | DeepSeek / Hy3 / MiniMax / StepFun | Spitzen des Rankings | Agent, Coding, Batch |
Während jeder SWE-bench-Punkt Schlagzeilen macht, routen Produktionssysteme Massenanfragen zu Flash-Modellen im Bereich 0,10 / 0,40 USD pro Million Token. Gründe:
Kosten schlagen Spitzenwert: Bei Agent-Mehrfachcalls dominieren Output-Token die Rechnung.
Stabilität schlägt Glückstreffer: Tool-Call-Fehlerrate und Latenz zählen mehr als eine brillante Antwort.
Coding ist Hauptfeld: Über 50 % Traffic ist codebezogen — die Spitze des Rankings spiegelt das.
Zitierbarer Datenpunkt: DeepSeek-V4-Flash +66 % WoW in einer Woche ohne neuen SOTA-Marketing-Launch — die Abrechnung ist ehrlicher als jedes Leaderboard.
Investoren nutzen OpenRouter-ähnliche Daten für AI-Commercialisierung; Entwickler für vendor-neutrales Routing; Forschung für Geopolitik und Architektur-Trends; Medien für «wer gewinnt wirklich». Token-Volumen ist vom Labormaßstab zum kommerziellen Barometer geworden — wöchentlich, öffentlich, selten aber in persönlichen Checklisten verankert. Wer Agent-Stacks auf dem Mac baut, sollte das Ranking wie einen Wochenreport behandeln, nicht wie Konferenz-Nebengeräusch.
Rechnung statt Keynote: Montags Rankings öffnen, Top-3-WoW mit eigenem OpenRouter-Verbrauch vergleichen.
Szenario-Routing: Agent/Batch → DeepSeek-V4-Flash; schwere Inferenz → Claude Opus; Multimodal → Gemini Flash.
Neue Einträge beobachten: Hy3 Preview, Owl Alpha — hohes WoW deutet auf nächsten Fallback-Kandidaten.
Budget und Degradierung: In OpenClaw/Claude Code Haupt-, Reserve- und Review-Modell plus Token-Cap pro Task setzen.
Mac-GUI-Abnahme: Gateway, OAuth und Keychain erfordern macOS-Oberfläche — reines SSH reicht nicht. VNC auf gemietetem Remote-Mac, 20 Minuten Smoke-Test (siehe OpenClaw-Serie).
Abnahme-Checkliste: ① Rankings-Lesezeichen; ② drei Modellnamen (Haupt/Reserve/Review); ③ letzte Woche Token + USD-Schätzung; ④ Agent-Fehlerrate; ⑤ VNC-Screenshot Gateway-200 — erst dann ist «Ranking-Wissen» operativ.
Top 10, sechs Makrotrends und Mac-Abnahme in fünf Schritten.
Lesen →openclaw models, Kosten und Fallback-Strategie.
Lesen →7×24 Agent und Ollama-Ressourcenplanung.
Lesen →Benchmarks messen Grenzfähigkeiten; Wochen-Token zeigen echte Zahlung und Routing. Beides nutzen, Abrechnung belegt Massenaufruf.
Claude Opus kostet pro Million Token deutlich mehr als DeepSeek Flash. Enterprise zahlt Premium; Agent-Batch wandert zu günstigen Modellen — das Prämien-Paradox.
DeepSeek, Tencent Hy3, MiniMax: niedrige API-Preise und offene Lizenzen für Agent/Coding. Woche 18.–24. Mai: China ~9,22T, USA ~4,93T Token.
Wöchentlich Rankings prüfen; in OpenClaw/Claude Code Modelle und Budget setzen; VNC-Remote-Mac für Gateway/OAuth. Siehe Abschnitt 08.
Die Daten der dritten Maiwoche 2026 zeigen: Der Markt stimmt mit Geld ab — chinesische Open-Weight-Modelle verschieben das globale Token-Gefüge durch extreme Kosteneffizienz. Entscheidend ist nicht allein «wer am klügsten wirkt», sondern wer am meisten aufgerufen wird. Zwölffaches Wochenwachstum in einem Jahr macht «Ranking lesen» zur Entwickler-Routine.
Für Mac-Nutzer liegt die versteckte Rechnung oft nicht im API-Tarif, sondern in schlafendem Notebook, Keychain-Dialogen ohne GUI und SSH ohne OAuth-Klick. Routing ändern und Gateway lokal nicht zum Laufen bringen kostet mehr Zeit als ein falsches Modell. Bevor Sie Hardware kaufen, validieren Sie Haupt-/Reserve-Paare per VNC auf gemietetem Remote-Mac — 7×24 und grafische Abnahme schlagen den blinden Kauf des Wochen-Spitzenreiters.
Wer OpenRouter wöchentlich verfolgt und Agents dauerhaft auf macOS betreiben will, nutzt VNCMac für physische Mac-mini-Knoten: Hauptbutton unten zur Miet- und Preisseite, Übersicht auf der Startseite.