TerminalBench 91.9% · CTF 96.7% · 政府限定プレビュー · Cerebras 750 token/s
2026年6月26日、OpenAIはGPT-5.6ファミリー——旗艦Sol、バランス型Terra、軽量Luna——を公開し、初の太陽系命名体系を導入しました。SolはTerminalBench 2.1で91.9%、サイバーセキュリティCTF評価で96.7%を記録。3モデルすべてがOpenAIのサイバーセキュリティHigh閾値を超えています。米政府のセキュリティ審査により、現時点でアクセスできるのは審査済みパートナー約20社に限られます。本稿では価格とポジショニング、主要ベンチマーク、Cerebras加速、6月の政策動向、Claude Mythos 5との比較、アクセス時程、用途別の選び方、安全アーキテクチャ、FAQまでを整理します。
| モデル | ポジション | 入力価格 | 出力価格 | ハイライト |
|---|---|---|---|---|
| GPT-5.6 Sol | 旗艦 / 最大性能 | $5 / 100万トークン | $30 / 100万トークン | TerminalBench 2.1 1位(91.9%) |
| GPT-5.6 Terra | バランス / 主力 | $2.50 / 100万トークン | $15 / 100万トークン | GPT-5.5並み、コスト50%削減 |
| GPT-5.6 Luna | 軽量 / 高速 | $1 / 100万トークン | $6 / 100万トークン | 高頻度タスク向け、Sol比80%安 |
現状:米政府の要請により、GPT-5.6は審査済みパートナー約20社に限定公開中です。数週間以内の一般提供が見込まれます。コンテキストウィンドウはおおよそ150万トークン(System Card正式版で確定予定)。
OpenAIは2026年6月26日、新しい天体命名でGPT-5.6をローンチしました。Sol(太陽)が旗艦、Terra(地球)がバランス層、Luna(月)が軽量層に対応します。
ただし展開は順調ではありませんでした。トランプ大統領の6月2日大統領令を受け、ホワイトハウスは科学技術政策局(OSTP)と国家サイバー局(ONCD)を調整し、広範公開前の政府セキュリティ審査を求めました。これは米政府がフロンティアモデルの公開を正式に制限した初の事例です。CEOサム・アルトマンは協力姿勢を示しつつ、次のように公言しています。
「この種の政府アクセスプロセスが長期的なデフォルトになるべきではないと考えています。最高のツールが、それを必要とするユーザー、開発者、企業、サイバー防衛者、グローバルパートナーから遠ざけられてしまうからです。」
大多数のユーザーと企業は、ChatGPTや公開API経由でGPT-5.6をまだ利用できません
6月は「スーパーローンチ月」のはずでしたが、OpenAI・Anthropic・Googleの旗艦がいずれも阻害または延期されました
限定プレビューのため、Agentワークフロー・Codex連携・ベンチマーク再現は7月まで数週間待つ可能性があります
政策の不確実性がモデル選定と予算計画に隠れコストを生んでいます
アクセス開放と同時に新モデルを検証できるmacOS開発環境を事前に整えておくべきです
SolはOpenAI史上最強のモデルで、高難度プログラミング、長期間のサイバーセキュリティ研究、多段階のエージェントワークフロー向けに設計されています。
2つの新推論モード:
価格:入力 $5 / 100万トークン、出力 $30 / 100万トークン(GPT-5.5と同額)
Terraは大規模カスタマーサポート、社内ツール、文書分析向けのエンタープライズ主力です。GPT-5.5に近い性能を50%低コストで実現し、大規模展開のコスパが最も高い選択肢です。価格:入力 $2.50 / 100万、出力 $15 / 100万。
Lunaは要約、下書き、定常自動化など高頻度・低レイテンシタスク向けです。非旗艦モデルとして初めて、サイバーセキュリティと生物学の両方でHigh評価を獲得しました。価格:入力 $1 / 100万、出力 $6 / 100万。
GPT-5.6は、3ティアすべてがOpenAIのサイバーセキュリティHighリスク分類をトリガーした初の製品ラインです。
TerminalBench 2.1は89問の複雑なコマンドライン計画問題で、現実的なエージェント環境における多段ツール利用、反復修復、タスク調整を測定します。
| モデル | スコア | モード |
|---|---|---|
| GPT-5.6 Sol | 91.9% | Ultra(マルチエージェント) |
| GPT-5.6 Sol | 88.8% | 標準 |
| Claude Mythos 5 | 88.0% | 標準 |
| GPT-5.5 | 83.4% | 標準 |
| Gemini 3.1 Pro Preview | 70.7% | 標準 |
SolはClaude Mythos 5の首位をわずか17日で奪いました。Mythos 5は6月9日に1位を記録していました。
| モデル | タスク完了率(コードモード) |
|---|---|
| GPT-5.6 Sol | 50.9%(50%超はSolのみ) |
| GPT-5.6 Luna | GPT-5.5をわずかに上回る |
| モデル | CTF命中率 |
|---|---|
| Sol | 96.7% |
| Terra | 91.84% |
| Luna | 85.19% |
ExploitBench:SolはAnthropic Mythos Previewとほぼ同等の性能を、出力トークン約3分の1で達成し、企業のセキュリティ研究コストを大幅に削減します。
安全上の注記:OpenAIのテストでは、SolはChromium・Firefoxコードベースの脆弱性とエクスプロイトプリミティブを特定できますが、完全で機能的なエクスプロイトチェーンを自律的に構築することはできません。「Cyber Critical」閾値には達していません。
7月から、GPT-5.6 Solは選定企業顧客向けにCerebrasハードウェア上で展開され、最大750トークン/秒に達します。
参考までに、現行の多くのフロンティアモデルは50〜150トークン/秒です。750 token/sでは、応答時間が現行の5分の1〜15分の1に短縮される可能性があり、リアルタイムコーディングアシスタントやストリーミングAIアプリに大きな影響を与えます。
大統領令は、米政府機関がフロンティアAIモデルの公開前に最大30日間のアクセスで国家安全保障審査を行えるとしています。法的強制力はありませんが、実際のローンチ制約を生みました。
| 企業 | モデル | 状況 |
|---|---|---|
| OpenAI | GPT-5.6 Sol / Terra / Luna | 限定プレビュー(パートナー約20社) |
| Anthropic | Claude Fable 5 / Mythos 5 | 6月12日、輸出規制で強制オフライン |
| Gemini 3.5 Pro | 7月に延期(当初6月予定) |
6月はAI史上最も大きなローンチ月になるはずでした。しかし3社の旗艦はいずれも公開の扉で足止めを食らいました。
| 観点 | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91.9%(Ultra)/ 88.8% | 88.0% |
| ExploitBench | Mythos Previewとほぼ同等、トークン約1/3 | データ非公開 |
| 入力価格 | $5 / M | $10 / M(現在オフライン) |
| 可用性 | 限定プレビュー、数週間で一般公開見込み | 輸出規制でオフライン |
| コンテキスト | 約150万トークン | 20万トークン |
結論:SolはTerminalBenchで先行し、入力価格は半額で同等のセキュリティ研究能力を提供します。Claude Fable 5はSWE-Bench Proなど他次元で先行する可能性があります。GPT-5.6の完全なSystem Card公開後に全体像が明確になるでしょう。
現在(2026年6月):政府審査済み信頼パートナー約20社のみがAPI・Codex経由で利用可能。ChatGPTユーザーはまだアクセス不可
7月見込み:ChatGPT一般公開(Plus・Pro優先)、公開APIアクセス
Cerebras版Sol:企業向け展開、最大750 token/s
Polymarket予測:2026年7月31日までにGPT-5.6が広く公開される確率は約87%
完全System Card:一般公開時に全ベンチマーク報告が公開される見込み
| ニーズ | 推奨モデル |
|---|---|
| 複雑なコード生成、デバッグ、多段エージェントタスク | Sol |
| 企業文書分析、サポート、大規模API呼び出し | Terra |
| 要約、下書き、定常自動化 | Luna |
| 限られた予算で旗艦級の能力が必要 | Terra(GPT-5.5並み、コスト50%削減) |
| レイテンシ重視のリアルタイムアプリ(7月以降) | Cerebras上のSol |
GPT-5.6はOpenAIの3つの次元での進歩を示しています。
能力:SolのUltraマルチエージェントが世界コーディングリーダーボード首位を獲得し、Claude Mythos 5の17日間の首位を終わらせました
効率:同等のセキュリティ研究性能を、競合の約3分の1のトークンコストで実現
速度:7月のCerebras 750 token/s展開がリアルタイムAIアプリの境界を塗り替えます
今回の公開は先例も作りました。米政府がフロンティアモデルのローンチに正式介入した初の事例です。国家安全保障とオープンアクセスのバランスが、今後数年のAI公開の在り方を左右するでしょう。
3ティアすべてがOpenAIのサイバーセキュリティHigh分類を超えたため、安全性は主要な設計焦点でした。
レッドチーミングにより、Solは堅牢な実世界ターゲットに対して完全で機能的なエクスプロイトチェーンを自律的に構築できないことが確認されています。OpenAIのDeployment Safety System Cardに評価手法の全文が記載されています。
2026年6月の公開前インテリジェンスまとめ。
読む →Cursor、Claude Code、Copilot、Geminiの選び方。
読む →カスタム推論シリコンとNvidiaとのコスト競争。
読む →一般ユーザーはまだ利用できません。現在は信頼パートナー約20社のみがAPIとCodex経由でアクセス可能です。数週間以内のChatGPT全面展開が見込まれ、Plus・Proユーザーが優先されます(2026年7月頃)。
TerminalBench 2.1ではSolが91.9%、Claude Mythos 5が88.0%です。Claude Fable 5はSWE-Bench Proで先行していますが、GPT-5.6のSWE-Bench公式スコアは未公開です。Solはより低価格で同等以上の性能が期待できます。
Ultraモードは複数のAIサブエージェントがタスクの各部分を並列処理し、統合結果を生成します。複雑タスクの性能を大きく向上させますが、消費トークンも大幅に増えます。本当に難しいエージェントワークフロー向けです。
米政府(ホワイトハウス、OSTP、ONCD)が、トランプ大統領の6月2日大統領令に続くセキュリティ審査期間中のアクセス制限を要請しました。OpenAIは協力しつつも、この慣行の恒常化に反対する姿勢を公表しています。
最大750トークン/秒——多くの現行フロンティアモデル(50〜150 token/s)の約5〜15倍です。2026年7月から選定企業顧客向けにCerebras容量拡大とともに展開予定です。
おおよそ150万トークンと報じられており、GPT-5.5の100万トークンから拡大しています。完全なSystem Card公開時に正式確認される見込みです。
3モデルすべてがOpenAIのサイバーセキュリティHighリスク評価を受けており、脆弱性研究能力が大幅に高まっています。リアルタイム分類器やレッドチーミングなど多層防御が施されており、完全な機能的エクスプロイトを自律構築することはできないと確認されています。
GPT-5.6 SolのUltraマルチエージェント方式とTerminalBench 91.9%は、Codex、OpenClawなどのエージェントワークフローに新たな能力段階をもたらします。政府限定プレビュー期間中、大多数の開発者はWindows/Linuxメイン環境から、Keychain・Xcode・GUIデバッグなどAppleエコシステムに沿った統合を完全に検証できません。
リモートMacのレンタルなら、自有ハードの減価償却・スリープポリシー・OS更新リスクを避けつつ、APIキーとリポジトリは自分の管理下に置けます。本番に近いmacOSデスクトップで、GPT-5.6 Codex連携とエージェント受け入れテストをアクセス開放と同時に走らせられます。一般公開前に準備するなら、VNCMacの料金プランをご確認ください。下の主ボタンからもお進みいただけます。
出典:OpenAI公式発表、Deployment Safety System Card、VentureBeat、SiliconAngle、TechTimes。データは2026年6月27日時点。