OpenRouter 周榜和 MMLU 等 Benchmark 哪个更可信？

Benchmark 测极限能力；周 Token 调用量反映开发者真实付费与路由选择。生产选型应两者对照，但以账单数据验证「谁在被大规模调用」。

为什么 Anthropic Token 份额下滑但收入仍高？

Claude Opus 等旗舰单价远高于 DeepSeek Flash。企业愿为复杂推理付溢价，但 Agent 批处理等高流量场景已转向低价模型。

中国模型周调用量为何能连续超越美国？

DeepSeek、腾讯 Hy3、MiniMax 等以极低 API 价与开源许可吸引 Agent 与编程场景；2026 年 5 月中国模型周 Token 约 9.22T，美国约 4.93T。

OpenRouter 周调用量排行：账单不会说谎

Q: Mac 开发者如何按周追踪榜单并落地？

每周访问 openrouter.ai/rankings；在 OpenClaw/Claude Code 设主备模型与预算；用 VNC 远程 Mac 完成 Gateway 与 OAuth 图形验收。

01

为什么「账单数据」比 Benchmark 更诚实？

MMLU、HumanEval、SWE-bench 等实验室榜单回答的是：在固定数据集上，模型极限能力几何。而 OpenRouter 作为全球最大中立 AI 模型 API 聚合平台之一——接入 300+ 模型、覆盖 60+ 供应商、服务超 800 万用户、月处理约 100 万亿 Token——其排行榜统计的是真实路由出去的输入+输出 Token 总量。花出去的钱与算力不会说谎：开发者用钱包为「够快、够稳、够便宜」投票。

2026 年 Agent 工作流爆发，编程类任务占 OpenRouter 流量的比例已从 2025 年初约 11% 升至超 50%，成为最大单一用途。此时再看榜单，你会发现一个反常识现象：OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》（基于 100 万亿 Token 匿名元数据）指出，模型 Benchmark 分数与市场份额往往呈反比——越贵的旗舰未必获得最多调用，极致性价比模型反而吞噬 Agent 批处理流量。

1
Benchmark 偏「上限」：单次跑分、固定 Prompt，难反映多轮工具调用与长链推理成本。
2
周 Token 偏「体温」：连续五周上涨说明需求真实扩张，而非营销事件脉冲。
3
双维度读榜：同时看 Token 份额与美元收入份额，才能看清「流量王者」与「利润王者」是否同一家。

02

数据来源与统计方法（按周 7 天滚动）

本文数据均来自 openrouter.ai/rankings 公开排行榜，统计周期为按周（7 天滚动 Token 吞吐量），与平台官方口径一致。核心维度包括：周 Token 总量（输入+输出）、模型维度排行、厂商市场份额，以及美元收入份额 vs Token 份额——后者能揭示定价差异下的「双重真相」。

数据采集节点：2026 年 5 月 18 日–5 月 24 日（本文撰写时该周为平台展示的最新完整周）。若你阅读时已过数周，请以官网实时数据为准；方法论仍适用。

数量级感知：约一年前 OpenRouter 周处理量约 2.4 万亿 Token，如今 28.9 万亿，一年量级增长约 12 倍——AI 应用已从「试用」进入规模化爆发。

03

最新一周全球总量：28.9 万亿 Token，连续五周上涨

指标	数据	环比变化
全球周调用量	28.9 万亿 Token	+7.4%（连续五周上涨）
中国模型周调用量	9.223 万亿 Token	+19.89%
美国模型周调用量	4.93 万亿 Token	+16.27%
地缘对比	中国模型连续四周周 Token 超越美国，稳居全球首位

痛点拆解（读榜时常误判）：

1
把日活当周榜：OpenRouter 周榜是 7 天滚动，勿与单日峰值混谈。
2
忽视「其余流量」：中美之外还有欧洲开源、匿名 Stealth 模型等，表内厂商份额需对照官网饼图。
3
用旧月数据决策：Hy3、Owl Alpha 等黑马周环比可达两位数，路由策略应按周更新。
4
只看排名不看单价：榜首模型往往是「极低价×极高吞吐」，不代表所有任务都该用它做终审。

04

当周模型调用量 Top 10（截至 2026-05-24）

排名	模型	厂商	周 Token 量	环比	特点
1	DeepSeek-V4-Flash	DeepSeek（中国）	3.43T	+66%	Agent 工作流首选，极低价格
2	腾讯 Hy3 Preview	Tencent（中国）	3.07T	+16%	限免结束后仍高增长
3	Claude Sonnet 4.6	Anthropic（美国）	1.35T	—	百万上下文，企业编程主力
4	DeepSeek-V3.2	DeepSeek（中国）	1.31T	—	低价长尾，角色扮演活跃
5	Owl Alpha	OpenRouter（匿名）	1.15T	+29%	免费 Agent 特化，百万上下文
6	Gemini 3 Flash Preview	Google（美国）	1.06T	—	多模态，学术/医疗场景
7	DeepSeek-V4-Pro	DeepSeek（中国）	1.00T	—	矩阵旗舰，复杂推理
8	MiniMax M2.7	MiniMax（中国）	806B	—	长上下文性价比之选
9	Grok 4.1 Fast	xAI（美国）	721B	—	2M 上下文，法律场景强势
10	Step 3.5 Flash	StepFun（中国）	673B	—	快速低价，批处理场景

数据说明：第 1–2、5 项周 Token 与环比来自《每日经济新闻》对 OpenRouter 5 月 18–24 日数据的报道；第 3–4、6、8–10 项周量交叉参照同期 OpenRouter 公开榜单与行业解读；DeepSeek-V4-Pro 的 1.00T 为系列周合计 5.74T 减去 V4-Flash（3.43T）与 V3.2（1.31T）后的推算值。前周排名第 6 的 Kimi K2.6 当周跌出前十，未列入本表。

DeepSeek 多模型矩阵称霸

DeepSeek 旗下 V4-Flash、V4-Pro、V3.2 三款同时进入前九，系列周调用总量约 5.74 万亿 Token，环比 +25.9%，连续两周在厂商维度超越 Anthropic 与 Google。可引用结论：不是单点爆款，而是「Flash 扛量 + Pro 扛难活 + V3.2 承接长尾」的产品矩阵在吃 Agent 红利。

05

厂商格局：Token 量 vs 美元收入的「双重真相」

中国模型的崛起速度

时间节点	中国模型流量占比（约）
2025 年初	< 2%
2026 年 2 月	首次周 Token 超越美国
2026 年 5 月	~45%+，连续四周超美

Anthropic 的「溢价悖论」

Anthropic 的 Token 份额约 12%（较一年前约 25% 下滑），但美元收入份额仍约 46%。解读：企业级用户仍为 Claude 复杂推理付高价，Claude Opus 4.6 等产品月收入可达数千万美元量级，但 Token 量只有 DeepSeek Flash 的零头——流量主导权已让渡给性价比阵营，利润池仍留在高端闭源。

市场分层结构（决策矩阵）

分层	代表	周榜特征	适合任务
高价值·低流量	Claude Opus	Token 少、收入高	企业复杂推理、合规场景
性价比·中流量	Gemini Flash	多模态稳增	学术、医疗、图文混合
极低价·高流量	DeepSeek / Hy3 / MiniMax / StepFun	周榜霸榜	Agent、编程、批处理

06

基准测试与市场调用量的「反转关系」

当 SWE-bench 每涨 1 分都能上头条时，生产环境却在批量把请求导向 $0.10/$0.40 每百万 Token 档的 Flash 模型。原因并不神秘：

1
成本 > 极限分：Agent 多轮调用下，输出 Token 费用是账单大头，开发者优先保 SLA 与单价。
2
稳定性 > 单次神答：工具调用失败率、API 延迟比「偶尔惊艳」更重要。
3
编程已成主战场：超 50% 流量与代码相关，榜单前列几乎被「能写能改能跑测试」的模型占据。

可引用数据点：DeepSeek-V4-Flash 周环比 +66% 发生在并无「新 SOTA 跑分」营销周，说明账单上的数字，比任何评测榜单都诚实。

07

为什么这张周榜变得如此重要？

投资者用 OpenRouter 类数据评估 AI 商业化进度（平台估值常与 PS 倍数挂钩）；开发者用它做不押宝单一厂商的路由参考；研究机构追踪地缘与技术趋势；媒体判断「谁在真正赢得 AI 竞赛」。Token 调用量已从技术指标升级为商业战场晴雨表——每周更新一次，免费公开，却极少被认真纳入个人选型流程。

08

开发者按周追踪与路由落地（五步）

1
别只看发布会，要看账单：每周一访问 Rankings，记录 Top 3 模型环比与自家 OpenRouter 用量是否背离。
2
按场景分路由：Agent/批处理 → DeepSeek-V4-Flash；企业复杂推理 → Claude Opus；多模态 → Gemini Flash。
3
盯新进榜单：Hy3 Preview、Owl Alpha 等环比高企者，往往是下一波默认「备脑」。
4
设预算与降级：在 OpenClaw / Claude Code 配置主备模型与单任务 Token 上限，避免 Opus 误吃批处理。
5
Mac 上图形验收：改路由后须在 macOS 上跑通 Gateway、OAuth 与 Keychain；纯 SSH 无法完成系统授权弹窗，建议用 VNC 远程 Mac 做 20 分钟验收（见站内 OpenClaw 专题）。

可引用清单：① 周榜 URL 书签；② 主/备/终审三档模型名；③ 上周总 Token 与上周美元估算；④ Agent 任务失败率；⑤ VNC 会话内 Gateway 200 自检截图——五者齐备，才算把「榜单认知」落地。

6 月大模型流行趋势

Top 10 与六大趋势、Mac 开发者五步验收。

阅读 →

OpenClaw 多模型路由

openclaw models 与降级策略。

阅读 →

租用 Mac 跑 OpenClaw

7×24 Agent 与 Ollama 资源策略。

阅读 →

FAQ

常见问题

Benchmark 测极限能力；周 Token 调用量反映真实付费与路由。生产选型应两者对照，但以账单验证「谁在被大规模调用」。

Claude Opus 等旗舰单价远高于 DeepSeek Flash。企业愿为复杂推理付溢价，但 Agent 批处理流量已转向低价模型——即本文「溢价悖论」。

DeepSeek、腾讯 Hy3、MiniMax 等以极低 API 价与开源许可吸引 Agent 与编程场景。2026 年 5 月 18–24 日周，中国模型约 9.22T Token，美国约 4.93T。

每周访问 Rankings；在 OpenClaw/Claude Code 设主备模型与预算；用 VNC 远程 Mac 完成 Gateway 与 OAuth 图形验收。详见本文第八节五步清单。

结语

2026 年 5 月第三周的数据说明：市场正在用钱投票——中国开源模型以极低成本重塑全球 AI 调用格局；不是谁最聪明，而是谁最被调用，才推动 AI 真正落地。周 Token 一年 12 倍增长，意味着「看榜」应像看股价一样成为开发者周常，而非发布会后的谈资。

对 Mac 用户而言，隐性成本常在合盖断 Agent、钥匙串授权、纯 SSH 点不了 OAuth——改完 OpenRouter 路由却在本地 Mac 上跑不通 Gateway，比选错模型更浪费时间。在确认主备模型组合与 OpenClaw/Claude Code 流水线之前，用租赁远程 Mac做 VNC 图形验收与 7×24 常驻，通常比追周榜第一名先买断顶配整机更稳妥。

若你正准备按周追踪 OpenRouter 榜单并在 macOS 上长期跑 Agent，可通过 VNCMac 租用物理 Mac mini 节点：下方主按钮进入购买页，套餐对比见首页。

OpenRouter 最新模型周调用量排行账单数据不会说谎，谁才是真正的王者？

为什么「账单数据」比 Benchmark 更诚实？

数据来源与统计方法（按周 7 天滚动）

最新一周全球总量：28.9 万亿 Token，连续五周上涨

当周模型调用量 Top 10（截至 2026-05-24）

DeepSeek 多模型矩阵称霸

厂商格局：Token 量 vs 美元收入的「双重真相」

中国模型的崛起速度

Anthropic 的「溢价悖论」

市场分层结构（决策矩阵）

基准测试与市场调用量的「反转关系」

为什么这张周榜变得如此重要？

开发者按周追踪与路由落地（五步）

6 月大模型流行趋势

OpenClaw 多模型路由

租用 Mac 跑 OpenClaw

常见问题

结语

OpenRouter 最新模型周调用量排行
账单数据不会说谎，谁才是真正的王者？