OpenRouter 週間榜と MMLU などのベンチマーク、どちらが信頼できる？

ベンチマークは限界能力を測ります。週間トークン量は開発者の実際の支払いとルーティングを反映します。本番選定では両方を照合しつつ、請求データで「誰が大規模に呼ばれているか」を検証してください。

Anthropic のトークンシェアは下がっているのに収入が高いのはなぜ？

Claude Opus など旗艦モデルの単価は DeepSeek Flash よりはるかに高いです。企業は複雑な推論にプレミアムを払いますが、Agent バッチ処理の大量トラフィックは低価格モデルへ移っています。

中国モデルの週間トークンが米国を連続で上回る理由は？

DeepSeek、腾讯 Hy3、MiniMax などが極めて低い API 価格とオープンライセンスで Agent・プログラミング用途を獲得しています。2026年5月18–24日週、中国モデルは約9.22T、米国モデルは約4.93Tでした。

OpenRouter 週間トークンランキング：請求データは嘘をつかない

Q: Mac 開発者が週間榜を追跡して実装するには？

毎週 openrouter.ai/rankings を確認し、OpenClaw/Claude Code で主備モデルと予算を設定。VNC リモート Mac で Gateway と OAuth のグラフィカル検収を完了してください。

01

なぜ「請求データ」がベンチマークより正直なのか

MMLU、HumanEval、SWE-bench などの実験室ランキングが答えるのは、固定データセット上でのモデル限界能力です。一方 OpenRouter は世界最大級の中立 AI モデル API 集約プラットフォームの一つ——300+ モデル、60社超のベンダー、800万ユーザー超、月間約 100 兆 Token を処理——そのランキングが集計するのは実際にルーティングされた入出力 Token の総量です。払ったお金と消費した算力は嘘をつきません。開発者は財布で「十分速く、十分安定し、十分安い」モデルに投票しています。

2026 年は Agent ワークフローが爆発的に伸び、プログラミング系タスクが OpenRouter トラフィックの割合を 2025 年初の約 11% から 50% 超へ押し上げ、最大の単一用途となりました。この文脈で榜を読むと、反直感的な現象が見えてきます。OpenRouter と a16z が共同公開した《2025 AI 利用レポート》（100 兆 Token の匿名メタデータに基づく）では、ベンチマークスコアと市場シェアはしばしば逆相関——高価な旗艦が最多呼び出しを獲得するとは限らず、極限のコスパモデルが Agent バッチ処理の流量を飲み込んでいます。

1
ベンチマークは「上限」寄り：単発スコア・固定プロンプトでは、多段ツール呼び出しと長鎖推論のコストを再現しにくいです。
2
週間 Token は「体温」寄り：5週連続の上昇はマーケティングイベントの一時的なスパイクではなく、需要の実質的拡大を示します。
3
二軸で読む：Token シェアとドル収入シェアを同時に見て初めて、「流量の王者」と「利益の王者」が同一かどうかが分かります。

02

データソースと統計方法（週間・7日ローリング）

本文の数値はすべて openrouter.ai/rankings の公開ランキングに基づきます。集計期間は週間（7日ローリング Token スループット）で、プラットフォーム公式の口径と一致します。主要次元は、週間 Token 総量（入力+出力）、モデル別ランキング、ベンダー市場シェア、そしてドル収入シェア vs Token シェア——後者が価格差の下にある「二重の真実」を浮かび上がらせます。

データ取得時点：2026年5月18日–5月24日（執筆時点でプラットフォームが表示していた最新の完全週）。お読みの時点で数週経過している場合は、公式のリアルタイムデータを優先してください。方法論自体は引き続き有効です。

規模感：約一年前の OpenRouter 週間処理量は 2.4 兆 Token 程度でしたが、いまは 28.9 兆——一年で約 12 倍のオーダー。AI 利用は「お試し」から規模化の爆発フェーズへ移行しています。

03

最新週のグローバル総量：28.9 兆 Token、5週連続上昇

指標	データ	前週比
グローバル週間呼び出し量	28.9 兆 Token	+7.4%（5週連続上昇）
中国モデル週間呼び出し量	9.223 兆 Token	+19.89%
米国モデル週間呼び出し量	4.93 兆 Token	+16.27%
地政学比較	中国モデルが4週連続で週間 Token を米国超え、世界首位

榜を読むときの典型的な誤解：

1
日次ピークを週間榜と混同：OpenRouter 週間榜は7日ローリングです。単日のスパイクと一緒に語らないでください。
2
「その他」の流量を無視：中美以外に欧州 OSS、匿名 Stealth モデルなどもあり、表のベンダーシェアは公式の円グラフと照合が必要です。
3
古い月次データで意思決定：Hy3、Owl Alpha などの黒馬は週間で二桁成長することもあり、ルーティング戦略は週次更新が前提です。
4
順位だけ見て単価を無視：首位モデルはしばしば「極低単価×超高スループット」の組み合わせであり、すべてのタスクの最終審査に使うべきとは限りません。

04

当週モデル呼び出し量 Top 10（2026-05-24 時点）

順位	モデル	ベンダー	週間 Token	前週比	特徴
1	DeepSeek-V4-Flash	DeepSeek（中国）	3.43T	+66%	Agent ワークフロー第一候補、極低価格
2	腾讯 Hy3 Preview	Tencent（中国）	3.07T	+16%	新進の黒馬、爆発的成長
3	Claude Sonnet 4.6	Anthropic（米国）	1.35T	—	百万コンテキスト、企業プログラミング主力
4	DeepSeek-V3.2	DeepSeek（中国）	1.31T	—	低価格ロングテール、ロールプレイ活発
5	Owl Alpha	OpenRouter（匿名）	1.15T	+29%	無料 Agent 特化、百万コンテキスト
6	Gemini 3 Flash Preview	Google（米国）	1.06T	—	マルチモーダル、学術・医療
7	DeepSeek-V4-Pro	DeepSeek（中国）	1.00T	—	旗艦、複雑推論向け
8	MiniMax M2.7	MiniMax（中国）	806B	—	長コンテキストのコスパ
9	Grok 4.1 Fast	xAI（米国）	721B	—	2M コンテキスト、法務系に強い
10	Step 3.5 Flash	StepFun（中国）	673B	—	高速低価格、バッチ処理

データ注記：1–2 位と 5 位の週間 Token・前週比は《每日经济新闻》の OpenRouter 5月18–24日データ報道に基づきます。3–4、6、8–10 位は同週の公開ランキングと業界解説を照合。DeepSeek-V4-Pro の 1.00T はシリーズ合計 5.74T から V4-Flash（3.43T）と V3.2（1.31T）を差し引いた推定値です。前週 6 位の Kimi K2.6 は当週トップ10圏外のため表から除外しています。

DeepSeek マルチモデル戦略が榜を制す

DeepSeek 傘下の V4-Flash、V4-Pro、V3.2 の3モデルが同時にトップ9入りし、シリーズ週間呼び出し総量は約 5.74 兆 Token、前週比 +25.9%。ベンダー次元では2週連続で Anthropic と Google を上回りました。引用可能な結論：単発のヒットではなく、「Flash が量を担い、Pro が難問を担い、V3.2 がロングテールを受ける」製品マトリクスが Agent ブームの恩恵を受けています。

05

ベンダー構図：Token 量とドル収入の「二重の真実」

中国モデルの台頭スピード

時点	中国モデル流量シェア（概算）
2025 年初	< 2%
2026 年 2 月	初めて週間 Token で米国超え
2026 年 5 月	~45%+、4週連続で米国超え

Anthropic の「プレミアム逆説」

Anthropic の Token シェアは約 12%（一年前の約25%から低下）ですが、ドル収入シェアは依然約 46%。解釈：エンタープライズユーザーは Claude の複雑推論に高単価を払い続けています。Claude Opus 4.6 などは月数千万ドル規模の収入を生みつつ、Token 量は DeepSeek Flash の数分の一——流量の主導権はコスパ陣営に譲りつつ、利益の池はハイエンド閉源に残る構図です。

市場の三層構造（意思決定マトリクス）

層	代表	週間榜の特徴	適したタスク
高価値・低流量	Claude Opus	Token 少・収入高	企業の複雑推論、コンプライアンス
コスパ・中流量	Gemini Flash	マルチモーダル安定成長	学術、医療、图文混合
極低価格・高流量	DeepSeek / Hy3 / MiniMax / StepFun	週間榜を席巻	Agent、プログラミング、バッチ

06

ベンチマークと市場呼び出し量の「逆転関係」

SWE-bench が1点上がるたびにニュースになる一方、本番環境ではリクエストが $0.10/$0.40 每百万 Token 帯の Flash モデルへ一括ルーティングされています。理由は単純です。

1
コスト > 限界スコア：Agent の多段呼び出しでは出力 Token 費用が請求の主役。開発者は SLA と単価を優先します。
2
安定性 > 単発の神回答：ツール呼び出し失敗率と API レイテンシは、「たまに驚く」より重要です。
3
プログラミングが主戦場：流量の50%超がコード関連。榜上位は「書ける・直せる・テストを回せる」モデルに集中しています。

引用可能なデータポイント：DeepSeek-V4-Flash の週間 +66% は、新 SOTA スコアのマーケティング週ではありませんでした。請求書の数字は、どの評価榜よりも正直だと言えます。

07

なぜこの週間榜がこれほど重要なのか

投資家は OpenRouter 系データで AI 商用化の進捗を評価します（プラットフォーム評価額は PS 倍率と結びつくことが多い）。開発者は単一ベンダーに賭けないルーティングの参照として使います。研究機関は地政学と技術トレンドを追跡し、メディアは「誰が本当に AI 競争に勝っているか」を判断します。Token 呼び出し量は技術指標から商業戦場の晴雨表へ昇格しました——毎週無料で更新されるのに、個人の選定フローに組み込まれている例は驚くほど少ないのです。

08

開発者向け週次追跡とルーティング実装（五步）

1
発表会より請求書：毎週月曜に Rankings を開き、Top 3 の前週比と自社 OpenRouter 利用量の乖離を記録します。
2
シーン別ルーティング：Agent/バッチ → DeepSeek-V4-Flash；企業の複雑推論 → Claude Opus；マルチモーダル → Gemini Flash。
3
新規入榜を注視：Hy3 Preview、Owl Alpha など前週比が高いモデルは、次のデフォルト「予備脳」候補です。
4
予算とフォールバック：OpenClaw / Claude Code で主備モデルとタスクあたり Token 上限を設定し、Opus がバッチを誤食しないようにします。
5
Mac でグラフィカル検収：ルーティング変更後は macOS 上で Gateway、OAuth、Keychain を通す必要があります。SSH だけではシステム許可ダイアログを操作できません。VNC リモート Mac で20分の検収を推奨します（サイト内 OpenClaw 特集参照）。

社内メモ用チェックリスト：① 週間榜 URL のブックマーク；② 主/備/最終審査の三段モデル名；③ 先週の総 Token とドル概算；④ Agent タスク失敗率；⑤ VNC セッション内 Gateway 200 自検スクリーンショット——この五つが揃って初めて「榜の認知」が実装に落ちます。

Top 10 と六大トレンド、Mac 五段階検収。

読む →

OpenClaw マルチモデルルーティング

openclaw models とフォールバック戦略。

読む →

レンタル Mac で OpenClaw

7×24 Agent と Ollama リソース戦略。

読む →

FAQ

よくある質問

ベンチマークは限界能力を測ります。週間トークン量は実際の支払いとルーティングを反映します。本番選定では両方を照合し、請求データで「誰が大規模に呼ばれているか」を検証してください。

Claude Opus など旗艦の単価は DeepSeek Flash よりはるかに高いです。企業は複雑推論にプレミアムを払いますが、Agent バッチの流量は低価格モデルへ移行——本文の「プレミアム逆説」です。

DeepSeek、腾讯 Hy3、MiniMax などが極低 API 価格とオープンライセンスで Agent・プログラミングを獲得。2026年5月18–24日週、中国モデル約 9.22T、米国約 4.93T でした。

毎週 Rankings を確認；OpenClaw/Claude Code で主備モデルと予算を設定；VNC リモート Macで Gateway と OAuth のグラフィカル検収。詳細は本文第8節の五步リストをご覧ください。

まとめ

2026年5月第3週のデータが示すのは、市場がお金で投票しているということです。中国 OSS モデルが極低コストでグローバル AI 呼び出しの地図を塗り替えています。最も賢いモデルではなく、最も呼ばれるモデルが AI の実装を前に進めます。週間 Token が一年で12倍になった今、「榜を見る」習慣は株価チェックと同様に開発者の週次ルーティンであるべきです。

Mac ユーザーにとっての隠れコストは、フタ閉じで Agent が止まること、Keychain 許可、SSH だけでは OAuth を完了できないことです。OpenRouter のルーティングを変えてもローカル Mac で Gateway が通らなければ、モデル選びのミスより時間を浪費します。主備モデルと OpenClaw/Claude Code のパイプラインを確定する前に、リモート Mac レンタルで VNC グラフィック検収と7×24常駐を試す方が、週間榜1位を追って高額本体を先に買うより安全なことが多いです。

OpenRouter 週間榜を追いながら macOS で長期 Agent を回す予定なら、VNCMac の物理 Mac mini ノードを月額で利用できます。下の主ボタンからプラン一覧、概要はホームへ。

OpenRouter 週間トークンランキング
請求データは嘘をつかない——本当の王者は誰か

なぜ「請求データ」がベンチマークより正直なのか

データソースと統計方法（週間・7日ローリング）

最新週のグローバル総量：28.9 兆 Token、5週連続上昇

当週モデル呼び出し量 Top 10（2026-05-24 時点）

DeepSeek マルチモデル戦略が榜を制す

ベンダー構図：Token 量とドル収入の「二重の真実」

中国モデルの台頭スピード

Anthropic の「プレミアム逆説」

市場の三層構造（意思決定マトリクス）

ベンチマークと市場呼び出し量の「逆転関係」

なぜこの週間榜がこれほど重要なのか

開発者向け週次追跡とルーティング実装（五步）

6月 LLM トレンド

OpenClaw マルチモデルルーティング

レンタル Mac で OpenClaw

よくある質問

まとめ

OpenRouter 週間トークンランキング請求データは嘘をつかない——本当の王者は誰か

なぜ「請求データ」がベンチマークより正直なのか

データソースと統計方法（週間・7日ローリング）

最新週のグローバル総量：28.9 兆 Token、5週連続上昇

当週モデル呼び出し量 Top 10（2026-05-24 時点）

DeepSeek マルチモデル戦略が榜を制す

ベンダー構図：Token 量とドル収入の「二重の真実」

中国モデルの台頭スピード

Anthropic の「プレミアム逆説」

市場の三層構造（意思決定マトリクス）

ベンチマークと市場呼び出し量の「逆転関係」

なぜこの週間榜がこれほど重要なのか

開発者向け週次追跡とルーティング実装（五步）

6月 LLM トレンド

OpenClaw マルチモデルルーティング

レンタル Mac で OpenClaw

よくある質問

まとめ

OpenRouter 週間トークンランキング
請求データは嘘をつかない——本当の王者は誰か