OpenRouter 週榜和 MMLU 等 Benchmark 哪個更可信？

Benchmark 測極限能力；週 Token 調用量反映開發者真實付費與路由選擇。生產選型應兩者對照，但以帳單數據驗證「誰在被大規模調用」。

中國模型週調用量為何能連續超越美國？

DeepSeek、騰訊 Hy3、MiniMax 等以極低 API 價與開源授權吸引 Agent 與程式設計場景；2026 年 5 月中國模型週 Token 約 9.22T，美國約 4.93T。

OpenRouter 週調用量排行：帳單不會說謊

Q: Mac 開發者如何按週追蹤榜單並落地？

每週造訪 openrouter.ai/rankings；在 OpenClaw/Claude Code 設主備模型與預算；用 VNC 遠端 Mac 完成 Gateway 與 OAuth 圖形驗收。

01

為什麼「帳單數據」比 Benchmark 更誠實？

MMLU、HumanEval、SWE-bench 等實驗室榜單回答的是：在固定資料集上，模型極限能力幾何。而 OpenRouter 作為全球最大中立 AI 模型 API 聚合平台之一——接入 300+ 模型、涵蓋 60+ 供應商、服務超 800 萬使用者、月處理約 100 萬億 Token——其排行榜統計的是真實路由出去的輸入+輸出 Token 總量。花出去的錢與算力不會說謊：開發者用錢包為「夠快、夠穩、夠便宜」投票。

2026 年 Agent 工作流爆發，程式設計類任務佔 OpenRouter 流量的比例已從 2025 年初約 11% 升至超 50%，成為最大單一用途。此時再看榜單，你會發現一個反直覺現象：OpenRouter 與 a16z 聯合發布的《2025 AI 使用報告》（基於 100 萬億 Token 匿名中繼資料）指出，模型 Benchmark 分數與市場份額往往呈反比——越貴的旗艦未必獲得最多調用，極致性價比模型反而吞噬 Agent 批次處理流量。

1
Benchmark 偏「上限」：單次跑分、固定 Prompt，難反映多輪工具調用與長鏈推理成本。
2
週 Token 偏「體溫」：連續五週上漲說明需求真實擴張，而非行銷事件脈衝。
3
雙維度讀榜：同時看 Token 份額與美元收入份額，才能看清「流量王者」與「利潤王者」是否同一家。

02

資料來源與統計方法（按週 7 天滾動）

本文資料均來自 openrouter.ai/rankings 公開排行榜，統計週期為按週（7 天滾動 Token 吞吐量），與平台官方口徑一致。核心維度包括：週 Token 總量（輸入+輸出）、模型維度排行、廠商市場份額，以及美元收入份額 vs Token 份額——後者能揭示定價差異下的「雙重真相」。

資料採集節點：2026 年 5 月 18 日–5 月 24 日（本文撰寫時該週為平台展示的最新完整週）。若你閱讀時已過數週，請以官網即時資料為準；方法論仍適用。

數量級感知：約一年前 OpenRouter 週處理量約 2.4 萬億 Token，如今 28.9 萬億，一年量級成長約 12 倍——AI 應用已從「試用」進入規模化爆發。

03

最新一週全球總量：28.9 萬億 Token，連續五週上漲

指標	資料	環比變化
全球週調用量	28.9 萬億 Token	+7.4%（連續五週上漲）
中國模型週調用量	9.223 萬億 Token	+19.89%
美國模型週調用量	4.93 萬億 Token	+16.27%
地緣對比	中國模型連續四週週 Token 超越美國，穩居全球首位

痛點拆解（讀榜時常誤判）：

1
把日活當週榜：OpenRouter 週榜是 7 天滾動，勿與單日峰值混談。
2
忽視「其餘流量」：中美之外還有歐洲開源、匿名 Stealth 模型等，表內廠商份額需對照官網圓餅圖。
3
用舊月資料決策：Hy3、Owl Alpha 等黑馬週環比可達兩位數，路由策略應按週更新。
4
只看排名不看單價：榜首模型往往是「極低價×極高吞吐」，不代表所有任務都該用它做終審。

04

當週模型調用量 Top 10（截至 2026-05-24）

排名	模型	廠商	週 Token 量	環比	特點
1	DeepSeek-V4-Flash	DeepSeek（中國）	3.43T	+66%	Agent 工作流首選，極低價格
2	騰訊 Hy3 Preview	Tencent（中國）	3.07T	+16%	黑馬新晉，爆發式成長
3	Claude Sonnet 4.6	Anthropic（美國）	1.35T	—	百萬上下文，企業程式設計主力
4	DeepSeek-V3.2	DeepSeek（中國）	1.31T	—	低價長尾，角色扮演活躍
5	Owl Alpha	OpenRouter（匿名）	1.15T	+29%	免費 Agent 特化，百萬上下文
6	Gemini 3 Flash Preview	Google（美國）	1.06T	—	多模態，學術/醫療場景
7	DeepSeek-V4-Pro	DeepSeek（中國）	1.00T	—	矩陣旗艦，複雜推理
8	MiniMax M2.7	MiniMax（中國）	806B	—	長上下文性價比之選
9	Grok 4.1 Fast	xAI（美國）	721B	—	2M 上下文，法律場景強勢
10	Step 3.5 Flash	StepFun（中國）	673B	—	快速低價，批次處理場景

數據說明：第 1–2、5 項週 Token 與環比來自《每日經濟新聞》對 OpenRouter 5 月 18–24 日數據的報導；第 3–4、6、8–10 項週量交叉參照同期 OpenRouter 公開榜單與行業解讀；DeepSeek-V4-Pro 的 1.00T 為系列週合計 5.74T 減去 V4-Flash（3.43T）與 V3.2（1.31T）後的推算值。前週排名第 6 的 Kimi K2.6 當週跌出前十，未列入本表。

DeepSeek 多模型矩陣稱霸

DeepSeek 旗下 V4-Flash、V4-Pro、V3.2 三款同時進入前九，系列週調用總量約 5.74 萬億 Token，環比 +25.9%，連續兩週在廠商維度超越 Anthropic 與 Google。可引用結論：不是單點爆款，而是「Flash 扛量 + Pro 扛難活 + V3.2 承接長尾」的產品矩陣在吃 Agent 紅利。

05

廠商格局：Token 量 vs 美元收入的「雙重真相」

中國模型的崛起速度

時間節點	中國模型流量佔比（約）
2025 年初	< 2%
2026 年 2 月	首次週 Token 超越美國
2026 年 5 月	~45%+，連續四週超美

Anthropic 的「溢價悖論」

Anthropic 的 Token 份額約 12%（較一年前約 25% 下滑），但美元收入份額仍約 46%。解讀：企業級使用者仍為 Claude 複雜推理付高價，Claude Opus 4.6 等產品月收入可達數千萬美元量級，但 Token 量只有 DeepSeek Flash 的零頭——流量主導權已讓渡給性價比陣營，利潤池仍留在高端閉源。

市場分層結構（決策矩陣）

分層	代表	週榜特徵	適合任務
高價值·低流量	Claude Opus	Token 少、收入高	企業複雜推理、合規場景
性價比·中流量	Gemini Flash	多模態穩增	學術、醫療、圖文混合
極低價·高流量	DeepSeek / Hy3 / MiniMax / StepFun	週榜霸榜	Agent、程式設計、批次處理

06

基準測試與市場調用量的「反轉關係」

當 SWE-bench 每漲 1 分都能上頭條時，生產環境卻在批量把請求導向 $0.10/$0.40 每百萬 Token 檔的 Flash 模型。原因並不神秘：

1
成本 > 極限分：Agent 多輪調用下，輸出 Token 費用是帳單大頭，開發者優先保 SLA 與單價。
2
穩定性 > 單次神答：工具調用失敗率、API 延遲比「偶爾驚豔」更重要。
3
程式設計已成主戰場：超 50% 流量與程式碼相關，榜單前列幾乎被「能寫能改能跑測試」的模型佔據。

可引用資料點：DeepSeek-V4-Flash 週環比 +66% 發生在並無「新 SOTA 跑分」行銷週，說明帳單上的數字，比任何評測榜單都誠實。

07

為什麼這張週榜變得如此重要？

投資人用 OpenRouter 類資料評估 AI 商業化進度（平台估值常與 PS 倍數掛鉤）；開發者用它做不押寶單一廠商的路由參考；研究機構追蹤地緣與技術趨勢；媒體判斷「誰在真正贏得 AI 競賽」。Token 調用量已從技術指標升級為商業戰場晴雨表——每週更新一次，免費公開，卻極少被認真納入個人選型流程。

08

開發者按週追蹤與路由落地（五步）

1
別只看發表會，要看帳單：每週一造訪 Rankings，記錄 Top 3 模型環比與自家 OpenRouter 用量是否背離。
2
按場景分路由：Agent/批次處理 → DeepSeek-V4-Flash；企業複雜推理 → Claude Opus；多模態 → Gemini Flash。
3
盯新進榜單：Hy3 Preview、Owl Alpha 等環比高企者，往往是下一波預設「備腦」。
4
設預算與降級：在 OpenClaw / Claude Code 設定主備模型與單任務 Token 上限，避免 Opus 誤吃批次處理。
5
Mac 上圖形驗收：改路由後須在 macOS 上跑通 Gateway、OAuth 與 Keychain；純 SSH 無法完成系統授權彈窗，建議用 VNC 遠端 Mac 做 20 分鐘驗收（見站內 OpenClaw 專題）。

可引用清單：① 週榜 URL 書籤；② 主/備/終審三檔模型名；③ 上週總 Token 與上週美元估算；④ Agent 任務失敗率；⑤ VNC 工作階段內 Gateway 200 自檢截圖——五者齊備，才算把「榜單認知」落地。

6 月大模型流行趨勢

Top 10 與六大趨勢、Mac 開發者五步驗收。

閱讀 →

租用 Mac 跑 OpenClaw

7×24 Agent 與 Ollama 資源策略。

閱讀 →

ds4 + DeepSeek V4 本機推論

96GB 門檻與租 Mac 跑 ds4 的 TCO 對比。

閱讀 →

FAQ

常見問題

Benchmark 測極限能力；週 Token 調用量反映真實付費與路由。生產選型應兩者對照，但以帳單驗證「誰在被大規模調用」。

Claude Opus 等旗艦單價遠高於 DeepSeek Flash。企業願為複雜推理付溢價，但 Agent 批次處理流量已轉向低價模型——即本文「溢價悖論」。

DeepSeek、騰訊 Hy3、MiniMax 等以極低 API 價與開源授權吸引 Agent 與程式設計場景。2026 年 5 月 18–24 日週，中國模型約 9.22T Token，美國約 4.93T。

每週造訪 Rankings；在 OpenClaw/Claude Code 設主備模型與預算；用 VNC 遠端 Mac 完成 Gateway 與 OAuth 圖形驗收。詳見本文第八節五步清單。

結語

2026 年 5 月第三週的資料說明：市場正在用錢投票——中國開源模型以極低成本重塑全球 AI 調用格局；不是誰最聰明，而是誰最被調用，才推動 AI 真正落地。週 Token 一年 12 倍增長，意味著「看榜」應像看股價一樣成為開發者週常，而非發表會後的談資。

對 Mac 使用者而言，隱性成本常在合蓋斷 Agent、鑰匙串授權、純 SSH 點不了 OAuth——改完 OpenRouter 路由卻在本機 Mac 上跑不通 Gateway，比選錯模型更浪費時間。在確認主備模型組合與 OpenClaw/Claude Code 流水線之前，用租賃遠端 Mac做 VNC 圖形驗收與 7×24 常駐，通常比追週榜第一名先買斷頂配整機更穩妥。

若你正準備按週追蹤 OpenRouter 榜單並在 macOS 上長期跑 Agent，可透過 VNCMac 租用實體 Mac mini 節點：下方主按鈕進入購買頁，套餐對比見首頁。

OpenRouter 最新模型週調用量排行帳單數據不會說謊，誰才是真正的王者？

為什麼「帳單數據」比 Benchmark 更誠實？

資料來源與統計方法（按週 7 天滾動）

最新一週全球總量：28.9 萬億 Token，連續五週上漲

當週模型調用量 Top 10（截至 2026-05-24）

DeepSeek 多模型矩陣稱霸

廠商格局：Token 量 vs 美元收入的「雙重真相」

中國模型的崛起速度

Anthropic 的「溢價悖論」

市場分層結構（決策矩陣）

基準測試與市場調用量的「反轉關係」

為什麼這張週榜變得如此重要？

開發者按週追蹤與路由落地（五步）

6 月大模型流行趨勢

租用 Mac 跑 OpenClaw

ds4 + DeepSeek V4 本機推論

常見問題

結語

OpenRouter 最新模型週調用量排行
帳單數據不會說謊，誰才是真正的王者？