TerminalBench 91.9% · CTF 96.7% · 政府限量预览 · Cerebras 750 token/s
2026 年 6 月 26 日,OpenAI 正式发布 GPT-5.6 系列三款模型——旗舰 Sol、均衡 Terra、轻量 Luna,首次引入太阳系天体命名体系。Sol 在 TerminalBench 2.1 以 91.9% 登顶全球编程基准,网络安全 CTF 命中率 96.7%。但受美国政府安全审查要求,目前仅约 20 家审批合作伙伴可预览。本文覆盖三款模型定位与定价、全部关键基准数据、Cerebras 加速、政策风波、与 Claude Mythos 5 对比、访问时间线与适用场景。
| 模型 | 定位 | 输入价格 | 输出价格 | 亮点 |
|---|---|---|---|---|
| GPT-5.6 Sol | 旗舰 / 最强 | $5 / 百万 Token | $30 / 百万 Token | TerminalBench 2.1 全球第一(91.9%) |
| GPT-5.6 Terra | 均衡 / 主力 | $2.50 / 百万 Token | $15 / 百万 Token | 性能接近 GPT-5.5,成本降低 50% |
| GPT-5.6 Luna | 轻量 / 快速 | $1 / 百万 Token | $6 / 百万 Token | 高频任务首选,80% 价格优势 |
当前状态:受美国政府要求,目前仅向约 20 家审批合作伙伴开放预览,预计数周内全面上线。上下文窗口约 1.5M Token(完整 System Card 发布后需核实)。
北京时间 2026 年 6 月 27 日凌晨,OpenAI 正式发布 GPT-5.6 系列,并首次引入以太阳系天体命名的体系——Sol(太阳)、Terra(大地)、Luna(月亮),分别对应旗舰、均衡和轻量三个层级。
这次发布并不顺利。受特朗普政府于 6 月 2 日签署的行政令影响,OpenAI 被要求在广泛发布前进行政府安全审查——这是美国政府首次要求 AI 公司限量发布前沿模型。OpenAI CEO 奥特曼虽表示配合,但同时公开声明:
「我们认为这种政府审批模式不应成为行业长期默认惯例。它让最好的工具远离了真正需要它们的用户、开发者、企业和全球合作伙伴。」
普通用户与多数企业无法通过 ChatGPT 或公开 API立即使用 GPT-5.6
6 月本应是 AI「超级发布月」,但 OpenAI、Anthropic、Google 三大旗舰集体受阻
限量预览意味着 Agent 工作流、Codex 集成与基准复现需等待数周至 7 月
政策不确定性增加选型与预算规划的隐性成本
需提前准备可快速切换的 macOS 开发环境以验收新模型能力
Sol 是 OpenAI 迄今发布的最强大模型,专为高难度编程、长链条网络安全研究、以及需要多步骤自主执行的智能体工作流(Agentic Workflow)设计。
两种全新推理模式:
定价:$5 / 百万输入 Token,$30 / 百万输出 Token(与 GPT-5.5 持平)
Terra 是日常企业级工作的核心主力,适用于大规模客服、内部工具、文档分析等高频业务场景。性能与 GPT-5.5 相近,但成本降低 50%,是大规模部署时性价比最高的选择。定价:$2.50 / 百万输入,$15 / 百万输出。
Luna 针对高频次、低延迟场景优化,适合文本摘要、起草、日常自动化。值得一提的是,Luna 也是 OpenAI 历史上首款在网络安全和生物学两个领域同时获得 High 能力评级的非旗舰模型。定价:$1 / 百万输入,$6 / 百万输出。
GPT-5.6 是 OpenAI 历史上首个三款模型全部触发「High(高)」网络安全风险等级的产品系列。
TerminalBench 2.1 包含 89 道复杂命令行规划题,测试模型在多步骤工具调用、迭代修复和任务协调方面的真实能力。
| 模型 | 得分 | 模式 |
|---|---|---|
| GPT-5.6 Sol | 91.9% | Ultra(多智能体) |
| GPT-5.6 Sol | 88.8% | 标准模式 |
| Claude Mythos 5 | 88.0% | 标准 |
| GPT-5.5 | 83.4% | 标准 |
| Gemini 3.1 Pro Preview | 70.7% | 标准 |
Sol 仅用了 17 天就将 Claude Mythos 5 从榜首拉了下来——后者于 6 月 9 日刚刚登顶。
| 模型 | 任务完成率(代码模式) |
|---|---|
| GPT-5.6 Sol | 50.9%(唯一突破 50%) |
| GPT-5.6 Luna | 略高于 GPT-5.5 |
| 模型 | CTF 命中率 |
|---|---|
| Sol | 96.7% |
| Terra | 91.84% |
| Luna | 85.19% |
ExploitBench:Sol 表现与 Anthropic Mythos Preview 几乎持平,但仅消耗约三分之一的输出 Token,大幅降低企业级安全研究成本。
安全说明:OpenAI 测试表明,Sol 在针对 Chromium 和 Firefox 代码库的评估中可识别漏洞和利用原语,但无法自主构造完整可用的漏洞利用链,仍处于「Cyber Critical」警戒线以下。
7 月起,GPT-5.6 Sol 将通过 Cerebras 硬件加速平台面向部分客户部署,生成速度最高可达 750 token/s。
对比参考:目前大多数旗舰模型输出速度在 50–150 token/s 之间。750 token/s 意味着在相同质量下,响应时间可能缩短至现有模型的 1/5 到 1/15,对实时编程助手、流式 AI 应用将是质的飞跃。
特朗普签署行政令,允许美国政府在 AI 模型公开发布前最多 30 天获取访问权限进行安全审查。该命令不具强制性,但实际产生了约束效果。
| 公司 | 模型 | 状态 |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | 仅向约 20 家合作伙伴开放预览 |
| Anthropic | Claude Fable 5 / Mythos 5 | 6月12日被出口管制令强制下线 |
| Gemini 3.5 Pro | 跳票至7月,原定6月上线 |
6 月本应是 AI 的「超级发布月」,但三大顶尖实验室的旗舰产品集体被卡在了发布门口。
| 维度 | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91.9%(Ultra)/ 88.8% | 88.0% |
| ExploitBench | 与 Mythos Preview 持平,Token 约 1/3 | 数据未公开 |
| 输入价格 | $5 / M | 原 $10/M(目前下线) |
| 可用性 | 限量预览,数周内全面开放 | 因出口管制下线 |
| 上下文窗口 | ~1.5M Token | 200K Token |
结论:Sol 在编程和网络安全的特定基准上已超越 Mythos 5,同时以一半的价格实现相近的安全研究能力。但 Fable 5 在 SWE-bench Pro 等其他维度上仍有优势,GPT-5.6 完整 System Card 数据有待全面公开后进一步比较。
当前(2026年6月):仅约 20 家经政府审批的可信合作伙伴可通过 API 和 Codex 访问;普通用户尚无法在 ChatGPT 中使用
预计 7 月:ChatGPT 全面上线(Plus/Pro 用户优先)、API 公开访问
Cerebras 加速版 Sol:面向企业客户开放,最高 750 token/s
Polymarket 预测:市场对「GPT-5.6 于 7 月 31 日前全面发布」的概率约为 87%
完整 System Card:预计在全面发布时公开完整基准报告
| 你的需求 | 推荐模型 |
|---|---|
| 复杂代码生成、调试、多步骤智能体任务 | Sol |
| 企业级文档分析、客服、大规模 API 调用 | Terra |
| 高频摘要、起草、日常自动化 | Luna |
| 预算有限但需要旗舰级能力 | Terra(GPT-5.5 同等性能,低 50% 成本) |
| 对延迟极度敏感的实时应用(7月后) | Sol on Cerebras |
GPT-5.6 系列代表了 OpenAI 在三个维度的重大突破:
能力:Sol 的 Ultra 多智能体模式让编程任务登顶全球榜首,将仅执掌 17 天宝座的 Claude Mythos 5 拉下
效率:同等安全研究能力下,Token 消耗仅为竞争对手的三分之一
速度:7 月 Cerebras 750 token/s 将重塑实时 AI 应用的边界
然而,这次发布也开了一个历史先例——美国政府首次介入 AI 模型发布流程。这场关于「国家安全 vs 技术开放」的博弈,将深刻影响未来的 AI 发布生态。
普通用户尚不能。目前仅约 20 家经政府审批的可信合作伙伴可通过 API 和 Codex 访问。预计数周内 ChatGPT 全面上线,Plus/Pro 用户优先。
Sol 在 TerminalBench 2.1 上以 91.9%(Ultra)超越 Mythos 5 的 88.0%;ExploitBench 相近但 Token 仅约 1/3;输入价 $5/M 对比 Mythos 原 $10/M;上下文约 1.5M vs 200K。
Ultra 模式采用多智能体协作:Sol 将复杂任务拆解后分发给多个并行子智能体,最终整合输出。显著提升复杂任务性能,但消耗更多 Token,适合真正复杂的 Agent 工作流。
受特朗普 6 月 2 日行政令影响,白宫协调 OSTP 与 ONCD 要求 OpenAI 在广泛发布前进行安全审查。OpenAI 配合但公开反对此模式成为长期惯例。
7 月起部分企业客户可通过 Cerebras 部署 Sol,最高 750 token/s,约为多数旗舰模型 50–150 token/s 的 5–15 倍。初始访问限于精选企业客户。
GPT-5.6 的 Sol Ultra 多智能体架构与 TerminalBench 91.9% 的成绩,意味着 Codex、OpenClaw 等 Agent 工作流将迎来新一轮能力跃升。但在政府限量预览窗口内,多数开发者仍无法在本地 Windows/Linux 环境完整验收与 Apple 生态对齐的钥匙串、Xcode 与图形化调试路径。
相较自建 Mac 的折旧与系统更新风险,租用远程 Mac 能把在线率交给专业服务商,你仍掌握 API 密钥与代码仓库,却能在与生产更接近的 macOS 桌面上第一时间跑通 GPT-5.6 Codex 集成与 Agent 验收。若你希望少押一台自有硬件、又要在全面开放前做好准备,可通过 VNCMac 租用云端 Mac:下方主按钮进入中文站购买页。
信息来源:OpenAI 官方公告、Deployment Safety System Card、VentureBeat、SiliconAngle、TechTimes。数据截止 2026 年 6 月 27 日。