7 天滚动 Token 榜 · 28.9 万亿周规模 · 中美格局 · Anthropic 溢价悖论 · Agent 路由五步
若你正在为 Agent 选模型、却被各厂商发布会上的 Benchmark 分数搞得眼花缭乱,谁在用、每周烧掉多少 Token、账单指向哪里才是更接近生产的信号。结论:以 OpenRouter Rankings 按周(7 天滚动)统计为准,2026 年 5 月 18 日–24 日全球周调用量达 28.9 万亿 Token,DeepSeek-V4-Flash 以 3.43T 蝉联榜首;中国模型周 Token 连续四周超美,Anthropic 则呈现「Token 份额下滑、美元收入仍高」的溢价悖论。本文包含:账单 vs 榜单可信度、统计口径、当周 Top 10、厂商双重真相、基准测试反转关系、开发者按周追踪与路由五步,以及 Mac 上 OpenClaw/Claude Code 的验收场景;可与 6 月流行趋势解读、ds4 本地推理 互链阅读。
MMLU、HumanEval、SWE-bench 等实验室榜单回答的是:在固定数据集上,模型极限能力几何。而 OpenRouter 作为全球最大中立 AI 模型 API 聚合平台之一——接入 300+ 模型、覆盖 60+ 供应商、服务超 800 万用户、月处理约 100 万亿 Token——其排行榜统计的是真实路由出去的输入+输出 Token 总量。花出去的钱与算力不会说谎:开发者用钱包为「够快、够稳、够便宜」投票。
2026 年 Agent 工作流爆发,编程类任务占 OpenRouter 流量的比例已从 2025 年初约 11% 升至超 50%,成为最大单一用途。此时再看榜单,你会发现一个反常识现象:OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》(基于 100 万亿 Token 匿名元数据)指出,模型 Benchmark 分数与市场份额往往呈反比——越贵的旗舰未必获得最多调用,极致性价比模型反而吞噬 Agent 批处理流量。
Benchmark 偏「上限」:单次跑分、固定 Prompt,难反映多轮工具调用与长链推理成本。
周 Token 偏「体温」:连续五周上涨说明需求真实扩张,而非营销事件脉冲。
双维度读榜:同时看 Token 份额与美元收入份额,才能看清「流量王者」与「利润王者」是否同一家。
本文数据均来自 openrouter.ai/rankings 公开排行榜,统计周期为按周(7 天滚动 Token 吞吐量),与平台官方口径一致。核心维度包括:周 Token 总量(输入+输出)、模型维度排行、厂商市场份额,以及美元收入份额 vs Token 份额——后者能揭示定价差异下的「双重真相」。
数据采集节点:2026 年 5 月 18 日–5 月 24 日(本文撰写时该周为平台展示的最新完整周)。若你阅读时已过数周,请以官网实时数据为准;方法论仍适用。
数量级感知:约一年前 OpenRouter 周处理量约 2.4 万亿 Token,如今 28.9 万亿,一年量级增长约 12 倍——AI 应用已从「试用」进入规模化爆发。
| 指标 | 数据 | 环比变化 |
|---|---|---|
| 全球周调用量 | 28.9 万亿 Token | +7.4%(连续五周上涨) |
| 中国模型周调用量 | 9.223 万亿 Token | +19.89% |
| 美国模型周调用量 | 4.93 万亿 Token | +16.27% |
| 地缘对比 | 中国模型连续四周周 Token 超越美国,稳居全球首位 | |
痛点拆解(读榜时常误判):
把日活当周榜:OpenRouter 周榜是 7 天滚动,勿与单日峰值混谈。
忽视「其余流量」:中美之外还有欧洲开源、匿名 Stealth 模型等,表内厂商份额需对照官网饼图。
用旧月数据决策:Hy3、Owl Alpha 等黑马周环比可达两位数,路由策略应按周更新。
只看排名不看单价:榜首模型往往是「极低价×极高吞吐」,不代表所有任务都该用它做终审。
| 排名 | 模型 | 厂商 | 周 Token 量 | 环比 | 特点 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(中国) | 3.43T | +66% | Agent 工作流首选,极低价格 |
| 2 | 腾讯 Hy3 Preview | Tencent(中国) | 3.07T | +16% | 限免结束后仍高增长 |
| 3 | Claude Sonnet 4.6 | Anthropic(美国) | 1.35T | — | 百万上下文,企业编程主力 |
| 4 | DeepSeek-V3.2 | DeepSeek(中国) | 1.31T | — | 低价长尾,角色扮演活跃 |
| 5 | Owl Alpha | OpenRouter(匿名) | 1.15T | +29% | 免费 Agent 特化,百万上下文 |
| 6 | Gemini 3 Flash Preview | Google(美国) | 1.06T | — | 多模态,学术/医疗场景 |
| 7 | DeepSeek-V4-Pro | DeepSeek(中国) | 1.00T | — | 矩阵旗舰,复杂推理 |
| 8 | MiniMax M2.7 | MiniMax(中国) | 806B | — | 长上下文性价比之选 |
| 9 | Grok 4.1 Fast | xAI(美国) | 721B | — | 2M 上下文,法律场景强势 |
| 10 | Step 3.5 Flash | StepFun(中国) | 673B | — | 快速低价,批处理场景 |
数据说明:第 1–2、5 项周 Token 与环比来自《每日经济新闻》对 OpenRouter 5 月 18–24 日数据的报道;第 3–4、6、8–10 项周量交叉参照同期 OpenRouter 公开榜单与行业解读;DeepSeek-V4-Pro 的 1.00T 为系列周合计 5.74T 减去 V4-Flash(3.43T)与 V3.2(1.31T)后的推算值。前周排名第 6 的 Kimi K2.6 当周跌出前十,未列入本表。
DeepSeek 旗下 V4-Flash、V4-Pro、V3.2 三款同时进入前九,系列周调用总量约 5.74 万亿 Token,环比 +25.9%,连续两周在厂商维度超越 Anthropic 与 Google。可引用结论:不是单点爆款,而是「Flash 扛量 + Pro 扛难活 + V3.2 承接长尾」的产品矩阵在吃 Agent 红利。
| 时间节点 | 中国模型流量占比(约) |
|---|---|
| 2025 年初 | < 2% |
| 2026 年 2 月 | 首次周 Token 超越美国 |
| 2026 年 5 月 | ~45%+,连续四周超美 |
Anthropic 的 Token 份额约 12%(较一年前约 25% 下滑),但美元收入份额仍约 46%。解读:企业级用户仍为 Claude 复杂推理付高价,Claude Opus 4.6 等产品月收入可达数千万美元量级,但 Token 量只有 DeepSeek Flash 的零头——流量主导权已让渡给性价比阵营,利润池仍留在高端闭源。
| 分层 | 代表 | 周榜特征 | 适合任务 |
|---|---|---|---|
| 高价值·低流量 | Claude Opus | Token 少、收入高 | 企业复杂推理、合规场景 |
| 性价比·中流量 | Gemini Flash | 多模态稳增 | 学术、医疗、图文混合 |
| 极低价·高流量 | DeepSeek / Hy3 / MiniMax / StepFun | 周榜霸榜 | Agent、编程、批处理 |
当 SWE-bench 每涨 1 分都能上头条时,生产环境却在批量把请求导向 $0.10/$0.40 每百万 Token 档的 Flash 模型。原因并不神秘:
成本 > 极限分:Agent 多轮调用下,输出 Token 费用是账单大头,开发者优先保 SLA 与单价。
稳定性 > 单次神答:工具调用失败率、API 延迟比「偶尔惊艳」更重要。
编程已成主战场:超 50% 流量与代码相关,榜单前列几乎被「能写能改能跑测试」的模型占据。
可引用数据点:DeepSeek-V4-Flash 周环比 +66% 发生在并无「新 SOTA 跑分」营销周,说明账单上的数字,比任何评测榜单都诚实。
投资者用 OpenRouter 类数据评估 AI 商业化进度(平台估值常与 PS 倍数挂钩);开发者用它做不押宝单一厂商的路由参考;研究机构追踪地缘与技术趋势;媒体判断「谁在真正赢得 AI 竞赛」。Token 调用量已从技术指标升级为商业战场晴雨表——每周更新一次,免费公开,却极少被认真纳入个人选型流程。
别只看发布会,要看账单:每周一访问 Rankings,记录 Top 3 模型环比与自家 OpenRouter 用量是否背离。
按场景分路由:Agent/批处理 → DeepSeek-V4-Flash;企业复杂推理 → Claude Opus;多模态 → Gemini Flash。
盯新进榜单:Hy3 Preview、Owl Alpha 等环比高企者,往往是下一波默认「备脑」。
设预算与降级:在 OpenClaw / Claude Code 配置主备模型与单任务 Token 上限,避免 Opus 误吃批处理。
Mac 上图形验收:改路由后须在 macOS 上跑通 Gateway、OAuth 与 Keychain;纯 SSH 无法完成系统授权弹窗,建议用 VNC 远程 Mac 做 20 分钟验收(见站内 OpenClaw 专题)。
可引用清单:① 周榜 URL 书签;② 主/备/终审三档模型名;③ 上周总 Token 与上周美元估算;④ Agent 任务失败率;⑤ VNC 会话内 Gateway 200 自检截图——五者齐备,才算把「榜单认知」落地。
Top 10 与六大趋势、Mac 开发者五步验收。
阅读 →openclaw models 与降级策略。
阅读 →7×24 Agent 与 Ollama 资源策略。
阅读 →Benchmark 测极限能力;周 Token 调用量反映真实付费与路由。生产选型应两者对照,但以账单验证「谁在被大规模调用」。
Claude Opus 等旗舰单价远高于 DeepSeek Flash。企业愿为复杂推理付溢价,但 Agent 批处理流量已转向低价模型——即本文「溢价悖论」。
DeepSeek、腾讯 Hy3、MiniMax 等以极低 API 价与开源许可吸引 Agent 与编程场景。2026 年 5 月 18–24 日周,中国模型约 9.22T Token,美国约 4.93T。
每周访问 Rankings;在 OpenClaw/Claude Code 设主备模型与预算;用 VNC 远程 Mac 完成 Gateway 与 OAuth 图形验收。详见本文第八节五步清单。
2026 年 5 月第三周的数据说明:市场正在用钱投票——中国开源模型以极低成本重塑全球 AI 调用格局;不是谁最聪明,而是谁最被调用,才推动 AI 真正落地。周 Token 一年 12 倍增长,意味着「看榜」应像看股价一样成为开发者周常,而非发布会后的谈资。
对 Mac 用户而言,隐性成本常在合盖断 Agent、钥匙串授权、纯 SSH 点不了 OAuth——改完 OpenRouter 路由却在本地 Mac 上跑不通 Gateway,比选错模型更浪费时间。在确认主备模型组合与 OpenClaw/Claude Code 流水线之前,用租赁远程 Mac做 VNC 图形验收与 7×24 常驻,通常比追周榜第一名先买断顶配整机更稳妥。
若你正准备按周追踪 OpenRouter 榜单并在 macOS 上长期跑 Agent,可通过 VNCMac 租用物理 Mac mini 节点:下方主按钮进入 购买页,套餐对比见 首页。