実トークン量 Top10 · 六大トレンド · シーン別マトリクス · Mac 開発者向け五段階検収
2026 年には論文上だけでも数百の大規模言語モデルが存在しますが、本番の請求書に載るのはごく一部です。誰がいくら払い、どのルートに流しているかは、ベンチマークのスクリーンショットより Claude Code や OpenClaw を Mac で回すときの現実に近い指標です。結論:OpenRouter Rankings(2026 年 6 月)を基準にすると、DeepSeek V4 Flash と 腾讯 Hy3 Preview が効率と Agent 適合性で上位を占め、100 万トークン文脈と MoE はもはやプレミアムオプションではなく前提条件です。本稿の構成:ランキングの信頼性、Top 10 一覧、主要 5 モデルの深掘り、能力・価格マトリクス、六大トレンド、6 シーン別の選定、Mac 開発者向け五段階検収。ds4 ローカル推論、OpenClaw 用レンタル Mac、M4 AI ワークステーション租購と併読すると API 専用から常時稼働 Gateway への移行が整理しやすくなります。
OpenRouter は Anthropic、Google、DeepSeek、腾讯、Moonshot、NVIDIA など数百モデルを束ねる統合 API の代表格です。公開ランキングは実際の API 呼び出しトークン総量で集計され、ベンダー自報のベンチマークには依存しません。夜通し Agent を回す開発者が「経済的に耐えられるか」を測るうえで、足で投票したデータに近いと言えます。
2026 年中期の市場では五つの変化が顕著です。中国発オープンウェイト(DeepSeek、Hy3、Kimi)がグローバル Top 10 に常連化。百万トークン級コンテキストが標準化。競争軸がチャット品質からツール呼び出し・ターミナル・長時間 Agentへ移行。無料・極低価格(Owl Alpha、Nemotron 3 Super free)が価格期待を押し下げ。MoE がランキングを占有し、純粋な巨大稠密モデルは消費者向けルーティングから退きつつあります。
呼び量は虚栄ではない:高いトークン量は、単発スコアではなく本番で許容されたレイテンシ・可用性・単価を意味します。
ルーティングは設計:下書き用の速いモデルと最終審査用の強いモデルの併用が一般的で、OpenRouter の統計はその組み合わせを反映します。
Mac ツールチェーンとの接点:DeepSeek V4 Flash は Claude Code・OpenClaw・OpenCode に統合済み。選定は Mac 上の Agent 請求と尾行レイテンシに直結します。
下表は OpenRouter Rankings(直近のトークン総量)を要約したものです。成長率はサイト上のトレンド指標であり、投資判断ではなくペース比較用として読んでください。
| 順位 | モデル | 組織 | 呼び量 | トレンド | 一行定位 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 10.9T | ↑995% | 高速推論・1M 文脈・Agent 向き |
| 2 | Hy3 Preview | 腾讯 | 10.7T | ↑>999% | オープン MoE・推論効率 +40% |
| 3 | Claude Opus 4.7 | Anthropic | 7.48T | ↑197% | 旗艦 Agent・高解像度ビジョン |
| 4 | Claude Sonnet 4.6 | Anthropic | 7.45T | ↑34% | 本番の主力・無料層あり |
| 5 | Owl Alpha | OpenRouter | 5.03T | ↑>999% | 完全無料・1.05M 文脈 |
| 6 | Gemini 3 Flash Preview | 4.6T | ↑3% | マルチモーダル低遅延・SWE-bench 78% | |
| 7 | DeepSeek V4 Pro | DeepSeek | 4.54T | ↑739% | 旗艦 MoE・難問推論 |
| 8 | DeepSeek V3.2 | DeepSeek | 4.31T | ↓14% | 前世代も稼働・V4 にシェア移動 |
| 9 | Kimi K2.6 | Moonshot | 3.72T | ↑1% | Agent Swarm・1T MoE |
| 10 | Nemotron 3 Super (free) | NVIDIA | 2.65T | ↑3% | 無料 OSS・Mamba+Transformer 混合 |
引用可能な数字:Top 10 の半数は中国チーム由来で多くがオープンまたはコミュニティライセンス。DeepSeek V4 Flash は 1M 文脈で 1 トークンあたりの推論 FLOPs が V3.2 の約 10%、KV キャッシュが約 7% とされ、効率が API 単価に直結しています。
総パラメータ 284B、フォワードあたり約 13B 活性の MoE。ネイティブ 1,000,000 トークン 文脈。Non-think / Think High / Think Max の推論モード。API は入力・出力とも百万トークンあたり約 $0.10 / $0.40 とされ、Haiku 級の課金で Sonnet 級の実用感を狙う構成です。XML ツール呼び出しに対応し、Claude Code・OpenClaw・OpenCode と統合。macOS でコーディング Agent を回すときの 2026 年デフォルトの高効率ブレインと言ってよいでしょう。
295B パラメータ、256K 文脈、192 エキスパートから top-8 活性。前世代比で推論効率 40% 向上、SWE-bench Verified 74.4%。Tencent Hy Community License で自社ホスト向き。DeepSeek・Kimi とともに、2026 年のオープンモデルが Agent ベンチで閉源旗艦と正面から競合していることを示します。
Opus 4.7(百万トークンあたり約 $5 / $25)は 30 分以上の自律コーディング Agent と高解像度ビジョン向け。Sonnet 4.6(約 $3 / $15)はバランス型の本番層で、コーディング評価で前代 Opus を上回るとされる初の Sonnet 世代であり Claude 無料層の基盤でもあります。Cursor で Opus ルーティングを使っているなら、ランキング上位は「高いが乱れたリポジトリでも耐える」選択の裏付けです。
Owl Alpha は $0・約 1.05M 文脈で Agent 向け。Stealth モデルはプロンプト記録の可能性があり、秘密情報は送らないこと。Nemotron 3 Super は 120B MoE と Mamba の混合、1M 文脈、同クラス 120B 比でスループット約 2.2 倍 とされるプライベート高 QPS 向き。どちらも試行コストを下げますが、本番 SLA の代替ではありません。
Gemini 3 Flash Preview は画像・音声・動画・PDF を扱い、SWE-bench Verified 約 78%。Google Search / Maps ツールと結合。Kimi K2.6 は 1T MoE で Agent Swarm は数百サブエージェント・数千ステップ協調のストーリー。Google クラウドにいるなら Gemini、オープンウェイトで大規模オーケストレーションなら Kimi、という切り分けが現実的です。
| モデル | コード/Agent | 長文 | マルチモーダル | 入力 $/M | 出力 $/M | 文脈 | OSS |
|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | ◎ | ◎ | — | ~0.10 | ~0.40 | 1M | 可 |
| Hy3 Preview | ◎ | ◎ | — | 自ホスト | 自ホスト | 256K | 可 |
| Claude Opus 4.7 | ◎ | ◎ | ◎ | 5.00 | 25.00 | 1M β | 否 |
| Claude Sonnet 4.6 | ○ | ◎ | ○ | 3.00 | 15.00 | 200K/1M β | 否 |
| Owl Alpha | ○ | ○ | — | 0 | 0 | 1.05M | 否 |
| Gemini 3 Flash | ◎ | ◎ | ◎ | 0.50 | 3.00 | 1M+ | 否 |
| Kimi K2.6 | ◎ | ○ | ○ | 自ホスト | 自ホスト | 256K | 可 |
| Nemotron 3 Super | ○ | ◎ | — | 0 | 0 | 1M | 可 |
選定でよく踏む地雷:
MMLU だけ見て SWE-bench を無視:2026 年の Agent 仕事は実 GitHub Issue 修正で測るべきです。
入力単価だけで予算:長い Agent ループでは出力×ラウンド数が請求の主役になりがちです。
無料エンドポイントをそのまま本番へ:Owl / Nemotron free は原型に最適。法務・データ所在は別審査が必要です。
ローカルとクラウドのコスト曲線を混同:大規模 MoE の快適なローカル推論は 96GB+ 統一メモリが目安(ds4 記事)。API 専用 Mac ワークフローとは別のスプレッドシートです。
トレンド一・1M 文脈が標準:リポジトリ全体や長報告を一発で入れられる一方、MoE 効率がなければ百万トークン課金は持続不可能です。
トレンド二・中国 OSS のグローバル化:Top 10 の半数が中国チーム由来で成長率 700% 超も珍しくありません。MIT/Apache 系ライセンスが採用を加速します。
トレンド三・Agent がチャット榜を置き換え:ツール安定性、Terminal-Bench、SWE-bench がリリースノートの主役。Kimi Agent Swarm や Hy3 の Terminal-Bench 54.4% がその例です。
トレンド四・MoE が消費者チャートを制圧:巨大稠密モデルはエッジで薄れ、Nemotron の MoE+Mamba 混合がスループットを押し上げます。
トレンド五・完全無料が商用価格を再設定:有料 API は無料層強化か値下げで応戦。「まず無料で開発者を取り、エコシステムで回収」が平台戦略です。
トレンド六・マルチモーダルが入場券:Gemini 3 Flash と Claude Opus のビジョン差が開き、テキストのみ SKU は集約器でのシェアを失います。
| シーン | 推奨 | 理由 |
|---|---|---|
| 日常オフィス(文書・翻訳) | Claude Sonnet 4.6 / Gemini 3 Flash | バランス・無料層・指示追従が安定 |
| Mac 上の AI ペアプロ | DeepSeek V4 Flash / Sonnet 4.6 | 低単価 + 1M で全リポジトリ;Sonnet は品質重視 |
| 複雑 Agent システム | Kimi K2.6 / Hy3 / DeepSeek V4 Flash | Agent 評価が強く OSS で私有化可 |
| コスト最優先 | Owl Alpha / Nemotron 3 Super | $0 API、原型向き |
| 画像・動画理解 | Gemini 3 Flash / Opus 4.7 | フルマルチモーダル vs 高精細ビジョン |
| 企業私有化・高スループット | Nemotron 3 Super / Hy3 / DeepSeek V4 | OSS + 効率優先 MoE |
多くの Mac ユーザーは基盤モデルを学習しません。Claude Code、OpenClaw、Cursor、Hermes Agent、Ollama/ds4 を API キーで回します。ランキングの知識を月次で再実行できるチェックリストに落とします。
主脳と予備脳を決める:本番 Agent の主脳は DeepSeek V4 Flash または Sonnet 4.6。難問は Opus 4.7 か DeepSeek V4 Pro。OpenRouter で予算上限とモデル上限を先に設定。
ツール呼び出しを測る:同一の「読む→パッチ→テスト」プロンプトを二モデルで回し、失敗率と平均ターン数を記録。初答の印象だけで判断しない。
24 時間のトークンを計測:入出力を分けて集計。長い Agent は出力単価 × ラウンドが支配的になりやすい。
ローカル推論の境界線:ds4 / Ollama で DeepSeek を回すなら 96GB+ を確認。未満なら API 継続かリモート Mac レンタルで検収。
7×24 と GUI:OpenClaw / Hermes は常時ホストが前提。MacBook のフタ閉じで Gateway が止まる。VNCMac の VNC リモート Mac で Keychain・ブラウザ OAuth・macOS 許可ダイアログを処理し、SSH だけでは詰まる箇所を避ける。
社内メモ用の一行:2026 年の競争はパラメータ数ではなく、同じ文脈長での単価・Agent ループの安定性・Mac 上のツール統合です。ランキング 1 位を追って Studio 級を買うより、組み合わせをレンタル Mac で検証する方が合理的なことが多いです。
96GB の壁とレンタル Mac の TCO 比較。
読む →7×24 Agent と Ollama リソース戦略。
読む →ローカル LLM と Xcode の判断マトリクス。
読む →OpenRouter は実 API のトークン量で順位付けし、開発者の支払いとルーティングを反映します。ベンチマークは固定データの実験室スコア。両方使い、どちらも代替し合いません。
コンテキスト長、百万トークン単価(特に出力)、Agent ツール呼び出しの安定性(SWE-bench Verified、Terminal-Bench、自前リポジトリハーネス)。
原型と学習には最適。Stealth はプロンプト記録の可能性があり秘密は送らない。本番は SLA とプライバシー条項のある有料層へ。
まずクラウド API + Claude Code / OpenClaw。ローカルは 96GB+ 確認後。月額リモート Mac レンタルで Agent と ds4 を検証し、満配 Mac Studio を先に買わない。
OpenRouter 2026 年 6 月の板は、LLM 市場の第二幕を示します:効率・単価・Agent エコシステムが単一スコアより重要。DeepSeek V4 Flash と中国 OSS 軍団は「安くて働く」が実トークンを取れることを証明し、Claude と Gemini は高難度マルチモーダルと長時間ジョブの頂点にいます。
Mac 開発者にとっての隠れコストは API 単価だけではなく、フタ閉じで Gateway が死ぬこと、Keychain ダイアログ、96GB のローカル壁、7×24 の電気代です。OpenClaw / Claude Code の組み合わせを確定する前に、VNCMac のリモート Mac レンタルで VNC グラフィック検収と常駐 Gateway を試すのが、新ランキングに合わせて高額本体を買うより安全なことが多いです。
macOS で長期 Agent を回す、または複数の frontier モデルを比較する予定なら、VNCMac の物理 Mac mini ノードを月額で借りられます。下の主ボタンから プラン一覧、概要は ホーム へ。