推理成本直降 50% · 台积电 3nm · 9 个月流片 · 竞争格局 · 部署路线图
2026 年 6 月 24 日,OpenAI 与博通(Broadcom)联合发布了名为 Jalapeño 的首款定制 AI 推理芯片。这款专为大语言模型(LLM)推理场景打造的 ASIC,声称相比主流 AI GPU 可节省约 50% 推理成本,性能每瓦指标大幅优于当前最先进水平,由台积电 3nm 工艺制造,年底将首先部署至微软等合作伙伴的数据中心。本文严格覆盖自研背景、技术架构、性能数据、9 个月开发周期、产业链分工、部署路线图、英伟达竞争格局、行业影响、关键人物、时间线与 FAQ 全部要点;并说明开发者如何在 VNCMac 远程 Mac 上验收 Codex / OpenClaw 等 Agent 工作流。
OpenAI 是全球最大的 GPU 消耗方之一。每当用户向 ChatGPT 提问,背后服务器群组就需要持续消耗大量算力完成「推理」(Inference)——即模型根据输入生成回答的过程。随着 GPT-4、GPT-5 系列模型能力持续升级,推理成本已成为 OpenAI 盈利路径上最重的一块石头。
过去,OpenAI 几乎完全依赖英伟达 GPU 运行推理和训练。英伟达的 H100、H200、Blackwell 系列固然强大,但它们是通用加速器——为各种任务设计,而非专门为 LLM 推理优化。在 LLM 这个高度同质化的场景里,大量算力开销实际上是浪费。类比来说:英伟达 GPU 是一把瑞士军刀,而 Jalapeño 是一把专业手术刀。
| 公司 | 自研芯片 | 用途 |
|---|---|---|
| TPU (Tensor Processing Unit) | 训练 + 推理 | |
| Amazon | Trainium(训练)/ Inferentia(推理) | 训练 + 推理 |
| Microsoft | Maia 100 | 推理 |
| Meta | MTIA | 推理 |
| OpenAI | Jalapeño(2026) | 推理 |
OpenAI 是大厂中入局最晚的,但步子迈得很快——9 个月从设计到流片,声称是高性能先进半导体领域有史以来最快的 ASIC 开发周期。
ASIC(Application-Specific Integrated Circuit,专用集成电路)意味着:这块芯片只做一件事——LLM 推理。它不玩游戏,不跑训练,不做通用计算。高度专一带来的好处是:在它专攻的领域,效率极高。
「Jalapeño 从零开始,专为 LLM 推理设计,融入了我们对前沿模型在内核执行、内存移动、网络通信和服务模式方面的深刻洞察。」—— OpenAI 硬件负责人 Richard Ho
从零设计(Blank-slate Design):不是在老架构上修改打补丁,而是以现代 LLM 推理为出发点重新设计,每一个设计决策都围绕 Transformer 架构的运算模式。
最小化数据搬运(Minimize Data Movement):LLM 推理的瓶颈往往不在算力,而在内存带宽。Jalapeño 的架构专门减少内存与计算单元之间的无效搬运。
计算 / 内存 / 网络均衡设计:针对 LLM 实际负载特征做专项平衡,使实际利用率更接近理论峰值。
博通 Tomahawk 网络互联:使 Jalapeño 在大规模集群部署时具备强大的节点间通信能力,多卡协同推理超大模型至关重要。
Celestica 板卡 / 机架集成:电子制造服务商 Celestica 负责将芯片集成进服务器主板、机架系统,提供规模化量产能力。
注意:以下数据来自博通 CEO 陈福阳及 OpenAI 官方声明,均为早期测试结果,完整技术报告将于数月后发布。需以「官方自测数字」看待,独立第三方验证尚未完成。
| 指标 | Jalapeño(早期测试) | 对比基准 |
|---|---|---|
| 推理成本节省 | 约 50% | 相比当前主流 AI GPU |
| 每瓦性能 | 显著优于当前最先进水平 | OpenAI 官方声明 |
| 性能绝对值 | 与英伟达 Blackwell、谷歌 TPU 相当 | 博通 CEO 陈福阳(路透社) |
| 热耗散表现 | 优于预期 | OpenAI 内部测试 |
博通 CEO 陈福阳(Hock Tan)在 Bloomberg 采访中表示:「到目前为止,Jalapeño 相比典型 AI GPU 展现出约 50% 的成本节省。」OpenAI 总裁 Greg Brockman 补充:「Jalapeño 从初始设计到流片只用了 9 个月,部分设计和优化过程还使用了 OpenAI 自己的 AI 模型。」
「50%」的数字目前仍是 Broadcom 方面的早期实验室数据,正式量产后的实际效果需等待:① OpenAI 发布完整技术报告;② 微软等合作伙伴完成数据中心实际部署;③ 第三方独立基准测试。
Jalapeño 从初始设计到制造流片(Tape-out)仅用了 9 个月。OpenAI 和博通声称这是高性能先进半导体领域有史以来最快的 ASIC 开发周期。
软硬件深度协同开发:OpenAI 模型团队与芯片团队深度协作,避免传统 ASIC 开发中「硬件工程师猜测软件需求」的大量返工。
AI 辅助芯片设计:OpenAI 自己的 AI 模型被用于加速芯片设计的部分决策和优化过程(VentureBeat 援引知情人士称使用了前代 OpenAI 模型)。
博通的成熟 IP 库:博通在芯片实现、网络互联等方面有大量可复用的 IP,显著缩短了从逻辑设计到物理实现的周期。
| 角色 | 公司 | 负责内容 |
|---|---|---|
| 芯片架构设计 | OpenAI | LLM 推理优化方向、全栈架构设计 |
| 芯片实现 & 网络 | 博通(Broadcom) | 硅片实现、Tomahawk 网络芯片、量产支持 |
| 晶圆代工 | 台积电(TSMC) | 3nm 工艺制造 |
| 系统集成 | Celestica | 主板、机架、服务器系统集成、量产 |
| 首批部署客户 | 微软 Azure | 数据中心部署(年底开始) |
只做推理,不做训练:训练前沿大模型仍高度依赖英伟达 GPU。2026 年 2 月,英伟达以 300 亿美元直接投资 OpenAI,双方战略绑定极深。
CUDA 软件生态:英伟达用十余年构建的 CUDA 开发者生态是最难跨越的护城河,Jalapeño 目前无法替代。
灵活性局限:ASIC 高度专一,若未来 LLM 架构发生根本性改变,专用芯片的适配成本很高。
哪怕 Jalapeño 只承担 OpenAI 20%~30% 的推理负载,也意味着真实节约大量成本、获得与英伟达谈判采购价格的底气、不再受单一供应商约束。这与谷歌、亚马逊、微软的策略如出一辙:不是「抛弃英伟达」,而是「不再完全依赖英伟达」。
「Nobody wants to be beholden to Nvidia.」—— Quilter Cheviot 全球科技研究主管 Ben Barringer
英伟达优势在于 Vera Rubin 平台、CUDA 生态,以及与 OpenAI 300 亿美元的投资绑定——双方既是竞争者,又是深度利益共同体。博通则正在成为「AI 定制芯片界的代工皇」——同时为 Google(TPU v5/v6)、Meta(MTIA)和 OpenAI(Jalapeño)设计定制 ASIC。2026 年前 5 个月,博通股价年涨幅约 18%;自 2022 年底以来累计涨幅接近 7 倍。
推理经济学将重塑 AI 商业模式:若 50% 成本节省在生产环境验证,ChatGPT API 调用成本可能进一步下降,OpenAI 盈利路径更清晰,「AI 价格战」底线将进一步拉低。
「全栈 AI 公司」成为新标准:OpenAI 正在设计芯片架构、内核、内存系统、网络、调度、部署系统和产品体验——竞争维度从「谁的模型更好」演变为「谁的全栈效率更高」。
半导体格局加速分化:赢家包括博通、台积电、SK 海力士 / 三星(HBM 内存);承压方包括英伟达(推理市场份额可能被逐步蚕食)、AMD。
| 姓名 | 职位 | 角色 |
|---|---|---|
| Greg Brockman | OpenAI 联合创始人 & 总裁 | 公开宣布发布,定性为「全栈基础设施战略」 |
| Richard Ho | OpenAI 硬件项目负责人 | 技术架构领导者 |
| Hock Tan(陈福阳) | 博通 CEO | 公开声称性能媲美 Blackwell、成本节省 50% |
| Sam Altman | OpenAI CEO | 整体战略推动者(曾公开表示希望 OpenAI 掌控算力命脉) |
2025 年 10 月 → OpenAI 与博通正式宣布合作开发定制芯片 2026 年 2 月 → 英伟达向 OpenAI 直接投资 300 亿美元(含 Vera Rubin 算力协议) 2026 年 6 月 24 日 → Jalapeño 芯片公开发布,工程样品在实验室运行 2026 年底 → 首批商用部署(微软 Azure 及其他合作伙伴数据中心) 2027 年 → 大规模量产,部署规模超 1.3 GW 2028 年(预计)→ 第二代芯片发布 2029 年(目标)→ 自研芯片支撑 10 GW 算力规模
不是,至少现在不是。它只做 LLM 推理,不做训练。英伟达在训练阶段的地位短期内无法撼动,双方更多是互补关系。
这是博通 CEO 接受彭博社采访时公布的早期实验室测试数据,尚未经过第三方独立验证。完整技术报告数月后才会发布,需谨慎看待。
如果成本节省验证成功,ChatGPT / API 调用费用可能进一步降低,响应速度可能更快。长期来看 AI 服务将更便宜、更普及。
官方未作说明。OpenAI 内部有以食物命名项目的传统,「辣椒」可能暗示这款芯片的「辛辣」性能或对市场格局的刺激效果。
OpenAI 和博通的官方表述是该芯片「为全行业当前和未来 LLM 而建」,暗示未来可能向外部公司开放,但目前首要任务是满足 OpenAI 自身需求。
博通和 OpenAI 已规划多代路线图,下一代芯片预计 2028 年推出,之后逐年迭代。
消息公布后英伟达股价反应有限。市场普遍认为英伟达在训练领域的优势短期内不受威胁,但长期来看大客户自研芯片的趋势构成结构性压力。
Jalapeño 不是终结英伟达统治的银弹,但它真实存在、已在实验室运行 GPT-5.3-Codex-Spark,并标志着「AI 公司单纯向最高出价者购买算力」的时代正在结束。OpenAI 加入 Google、Amazon、Microsoft、Meta 的自研硅行列——目标不是完全替换英伟达,而是获得杠杆、降低成本、掌控全栈。若 50% 成本数字在生产环境成立,AI 经济学将发生有意义的变化。
对开发者而言,Jalapeño 的直接影响是 Codex / ChatGPT API 可能更便宜、更快——但你在 Mac 上写代码、跑 Xcode、部署 OpenClaw Agent 的工作负载并不会因此消失。全栈 AI 时代反而把「云端推理降本」与「本地 / 远程 Mac 开发环境」拆成两条并行链路:前者由 Jalapeño 们优化,后者仍须 Apple Silicon + 图形会话承接。若你主力机是 Windows/Linux、需要验收 Codex Spark 或 OpenClaw 在 macOS 上的 GUI 边界,VNCMac 远程 Mac+VNC 仍是最短路径——下方按钮可立即开通 M4 节点。