7 天滾動 Token 榜 · 28.9 萬億週規模 · 中美格局 · Anthropic 溢價悖論 · Agent 路由五步
若你正為 Agent 挑選模型、卻被各廠商發表會上的 Benchmark 分數搞得眼花撩亂,誰在用、每週燒掉多少 Token、帳單指向哪裡才是更接近生產環境的訊號。結論:以 OpenRouter Rankings 按週(7 天滾動)統計為準,2026 年 5 月 18 日–24 日全球週調用量達 28.9 萬億 Token,DeepSeek-V4-Flash 以 3.43T 蟬聯榜首;中國模型週 Token 連續四週超越美國,Anthropic 則呈現「Token 份額下滑、美元收入仍高」的溢價悖論。本文包含:帳單 vs 榜單可信度、統計口徑、當週 Top 10、廠商雙重真相、基準測試反轉關係、開發者按週追蹤與路由五步,以及 Mac 上 OpenClaw/Claude Code 的驗收場景;可與 6 月流行趨勢解讀、ds4 本機推論 互鏈閱讀。
MMLU、HumanEval、SWE-bench 等實驗室榜單回答的是:在固定資料集上,模型極限能力幾何。而 OpenRouter 作為全球最大中立 AI 模型 API 聚合平台之一——接入 300+ 模型、涵蓋 60+ 供應商、服務超 800 萬使用者、月處理約 100 萬億 Token——其排行榜統計的是真實路由出去的輸入+輸出 Token 總量。花出去的錢與算力不會說謊:開發者用錢包為「夠快、夠穩、夠便宜」投票。
2026 年 Agent 工作流爆發,程式設計類任務佔 OpenRouter 流量的比例已從 2025 年初約 11% 升至超 50%,成為最大單一用途。此時再看榜單,你會發現一個反直覺現象:OpenRouter 與 a16z 聯合發布的《2025 AI 使用報告》(基於 100 萬億 Token 匿名中繼資料)指出,模型 Benchmark 分數與市場份額往往呈反比——越貴的旗艦未必獲得最多調用,極致性價比模型反而吞噬 Agent 批次處理流量。
Benchmark 偏「上限」:單次跑分、固定 Prompt,難反映多輪工具調用與長鏈推理成本。
週 Token 偏「體溫」:連續五週上漲說明需求真實擴張,而非行銷事件脈衝。
雙維度讀榜:同時看 Token 份額與美元收入份額,才能看清「流量王者」與「利潤王者」是否同一家。
本文資料均來自 openrouter.ai/rankings 公開排行榜,統計週期為按週(7 天滾動 Token 吞吐量),與平台官方口徑一致。核心維度包括:週 Token 總量(輸入+輸出)、模型維度排行、廠商市場份額,以及美元收入份額 vs Token 份額——後者能揭示定價差異下的「雙重真相」。
資料採集節點:2026 年 5 月 18 日–5 月 24 日(本文撰寫時該週為平台展示的最新完整週)。若你閱讀時已過數週,請以官網即時資料為準;方法論仍適用。
數量級感知:約一年前 OpenRouter 週處理量約 2.4 萬億 Token,如今 28.9 萬億,一年量級成長約 12 倍——AI 應用已從「試用」進入規模化爆發。
| 指標 | 資料 | 環比變化 |
|---|---|---|
| 全球週調用量 | 28.9 萬億 Token | +7.4%(連續五週上漲) |
| 中國模型週調用量 | 9.223 萬億 Token | +19.89% |
| 美國模型週調用量 | 4.93 萬億 Token | +16.27% |
| 地緣對比 | 中國模型連續四週週 Token 超越美國,穩居全球首位 | |
痛點拆解(讀榜時常誤判):
把日活當週榜:OpenRouter 週榜是 7 天滾動,勿與單日峰值混談。
忽視「其餘流量」:中美之外還有歐洲開源、匿名 Stealth 模型等,表內廠商份額需對照官網圓餅圖。
用舊月資料決策:Hy3、Owl Alpha 等黑馬週環比可達兩位數,路由策略應按週更新。
只看排名不看單價:榜首模型往往是「極低價×極高吞吐」,不代表所有任務都該用它做終審。
| 排名 | 模型 | 廠商 | 週 Token 量 | 環比 | 特點 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(中國) | 3.43T | +66% | Agent 工作流首選,極低價格 |
| 2 | 騰訊 Hy3 Preview | Tencent(中國) | 3.07T | +16% | 黑馬新晉,爆發式成長 |
| 3 | Claude Sonnet 4.6 | Anthropic(美國) | 1.35T | — | 百萬上下文,企業程式設計主力 |
| 4 | DeepSeek-V3.2 | DeepSeek(中國) | 1.31T | — | 低價長尾,角色扮演活躍 |
| 5 | Owl Alpha | OpenRouter(匿名) | 1.15T | +29% | 免費 Agent 特化,百萬上下文 |
| 6 | Gemini 3 Flash Preview | Google(美國) | 1.06T | — | 多模態,學術/醫療場景 |
| 7 | DeepSeek-V4-Pro | DeepSeek(中國) | 1.00T | — | 矩陣旗艦,複雜推理 |
| 8 | MiniMax M2.7 | MiniMax(中國) | 806B | — | 長上下文性價比之選 |
| 9 | Grok 4.1 Fast | xAI(美國) | 721B | — | 2M 上下文,法律場景強勢 |
| 10 | Step 3.5 Flash | StepFun(中國) | 673B | — | 快速低價,批次處理場景 |
數據說明:第 1–2、5 項週 Token 與環比來自《每日經濟新聞》對 OpenRouter 5 月 18–24 日數據的報導;第 3–4、6、8–10 項週量交叉參照同期 OpenRouter 公開榜單與行業解讀;DeepSeek-V4-Pro 的 1.00T 為系列週合計 5.74T 減去 V4-Flash(3.43T)與 V3.2(1.31T)後的推算值。前週排名第 6 的 Kimi K2.6 當週跌出前十,未列入本表。
DeepSeek 旗下 V4-Flash、V4-Pro、V3.2 三款同時進入前九,系列週調用總量約 5.74 萬億 Token,環比 +25.9%,連續兩週在廠商維度超越 Anthropic 與 Google。可引用結論:不是單點爆款,而是「Flash 扛量 + Pro 扛難活 + V3.2 承接長尾」的產品矩陣在吃 Agent 紅利。
| 時間節點 | 中國模型流量佔比(約) |
|---|---|
| 2025 年初 | < 2% |
| 2026 年 2 月 | 首次週 Token 超越美國 |
| 2026 年 5 月 | ~45%+,連續四週超美 |
Anthropic 的 Token 份額約 12%(較一年前約 25% 下滑),但美元收入份額仍約 46%。解讀:企業級使用者仍為 Claude 複雜推理付高價,Claude Opus 4.6 等產品月收入可達數千萬美元量級,但 Token 量只有 DeepSeek Flash 的零頭——流量主導權已讓渡給性價比陣營,利潤池仍留在高端閉源。
| 分層 | 代表 | 週榜特徵 | 適合任務 |
|---|---|---|---|
| 高價值·低流量 | Claude Opus | Token 少、收入高 | 企業複雜推理、合規場景 |
| 性價比·中流量 | Gemini Flash | 多模態穩增 | 學術、醫療、圖文混合 |
| 極低價·高流量 | DeepSeek / Hy3 / MiniMax / StepFun | 週榜霸榜 | Agent、程式設計、批次處理 |
當 SWE-bench 每漲 1 分都能上頭條時,生產環境卻在批量把請求導向 $0.10/$0.40 每百萬 Token 檔的 Flash 模型。原因並不神秘:
成本 > 極限分:Agent 多輪調用下,輸出 Token 費用是帳單大頭,開發者優先保 SLA 與單價。
穩定性 > 單次神答:工具調用失敗率、API 延遲比「偶爾驚豔」更重要。
程式設計已成主戰場:超 50% 流量與程式碼相關,榜單前列幾乎被「能寫能改能跑測試」的模型佔據。
可引用資料點:DeepSeek-V4-Flash 週環比 +66% 發生在並無「新 SOTA 跑分」行銷週,說明帳單上的數字,比任何評測榜單都誠實。
投資人用 OpenRouter 類資料評估 AI 商業化進度(平台估值常與 PS 倍數掛鉤);開發者用它做不押寶單一廠商的路由參考;研究機構追蹤地緣與技術趨勢;媒體判斷「誰在真正贏得 AI 競賽」。Token 調用量已從技術指標升級為商業戰場晴雨表——每週更新一次,免費公開,卻極少被認真納入個人選型流程。
別只看發表會,要看帳單:每週一造訪 Rankings,記錄 Top 3 模型環比與自家 OpenRouter 用量是否背離。
按場景分路由:Agent/批次處理 → DeepSeek-V4-Flash;企業複雜推理 → Claude Opus;多模態 → Gemini Flash。
盯新進榜單:Hy3 Preview、Owl Alpha 等環比高企者,往往是下一波預設「備腦」。
設預算與降級:在 OpenClaw / Claude Code 設定主備模型與單任務 Token 上限,避免 Opus 誤吃批次處理。
Mac 上圖形驗收:改路由後須在 macOS 上跑通 Gateway、OAuth 與 Keychain;純 SSH 無法完成系統授權彈窗,建議用 VNC 遠端 Mac 做 20 分鐘驗收(見站內 OpenClaw 專題)。
可引用清單:① 週榜 URL 書籤;② 主/備/終審三檔模型名;③ 上週總 Token 與上週美元估算;④ Agent 任務失敗率;⑤ VNC 工作階段內 Gateway 200 自檢截圖——五者齊備,才算把「榜單認知」落地。
Top 10 與六大趨勢、Mac 開發者五步驗收。
閱讀 →7×24 Agent 與 Ollama 資源策略。
閱讀 →96GB 門檻與租 Mac 跑 ds4 的 TCO 對比。
閱讀 →Benchmark 測極限能力;週 Token 調用量反映真實付費與路由。生產選型應兩者對照,但以帳單驗證「誰在被大規模調用」。
Claude Opus 等旗艦單價遠高於 DeepSeek Flash。企業願為複雜推理付溢價,但 Agent 批次處理流量已轉向低價模型——即本文「溢價悖論」。
DeepSeek、騰訊 Hy3、MiniMax 等以極低 API 價與開源授權吸引 Agent 與程式設計場景。2026 年 5 月 18–24 日週,中國模型約 9.22T Token,美國約 4.93T。
每週造訪 Rankings;在 OpenClaw/Claude Code 設主備模型與預算;用 VNC 遠端 Mac 完成 Gateway 與 OAuth 圖形驗收。詳見本文第八節五步清單。
2026 年 5 月第三週的資料說明:市場正在用錢投票——中國開源模型以極低成本重塑全球 AI 調用格局;不是誰最聰明,而是誰最被調用,才推動 AI 真正落地。週 Token 一年 12 倍增長,意味著「看榜」應像看股價一樣成為開發者週常,而非發表會後的談資。
對 Mac 使用者而言,隱性成本常在合蓋斷 Agent、鑰匙串授權、純 SSH 點不了 OAuth——改完 OpenRouter 路由卻在本機 Mac 上跑不通 Gateway,比選錯模型更浪費時間。在確認主備模型組合與 OpenClaw/Claude Code 流水線之前,用租賃遠端 Mac做 VNC 圖形驗收與 7×24 常駐,通常比追週榜第一名先買斷頂配整機更穩妥。
若你正準備按週追蹤 OpenRouter 榜單並在 macOS 上長期跑 Agent,可透過 VNCMac 租用實體 Mac mini 節點:下方主按鈕進入 購買頁,套餐對比見 首頁。