開源大模型 2026年7月1日 約 22 分鐘 openPangu 昇騰 NPU

華為 openPangu 2.0 正式開源
505B MoE · 512K 上下文 · 昇騰全鏈路

HDC 2026 發布 · 6/30 Flash 上線 · 7 大元件路線圖 · 競品選型 · 部署指南

華為 openPangu 2.0 開源大模型 MoE 架構與昇騰 NPU 訓練

2026 年 6 月 30 日,華為兌現 HDC 2026 承諾——openPangu-2.0-Flash 權重、基礎推理程式與訓推算子正式上線 GitCode Ascend Tribe結論:這是全球首個在非 NVIDIA 硬體上完成前沿規模訓練的開源大模型,也是極少數計畫全鏈路開源 7 大元件的超大規模 MoE。本文包含:完整時間軸與參數表、架構創新(mHC / ModAttn / DSA+SWA)、競品橫向對照與選型決策樹、ModelArts API 與 GitCode 自部署步驟、戰略意義與 openPangu License,以及 Mac 開發者對接多模型 Agent 的驗收建議;可與 6 月 OpenRouter 排行榜 互鏈對照中國模型格局。

免責聲明:本文部分能力評估為基於架構的推斷,獨立第三方 benchmark 公布後將持續更新。發布日期:2026 年 7 月 1 日。

01

事件背景與時間軸:從 HDC 2026 到 GitCode 上線

時間事件
2026-06-12華為開發者大會 HDC 2026 東莞松山湖,余承東主題演講正式發布 openPangu 2.0
2026-06-30openPangu-2.0-Flash 模型權重、基礎推理程式、訓推算子正式開源上線 GitCode
2026-07(規劃)openPangu-2.0-Pro 模型權重、推理程式上線
2026 下半年(規劃)預訓練程式、後訓練程式、訓練算子等更多元件陸續上線

「在我余生的字典裡,沒有第二,只有第一。我們會從中國第一,走向將來的世界第一。」——余承東,HDC 2026

痛點拆解:為什麼這次開源值得關注?

  1. 01

    硬體封鎖背景:美國長期限制 A100/H100 對華出口,業界質疑「無 NVIDIA 能否訓前沿模型」——openPangu 2.0 用 505B MoE 給出答案。

  2. 02

    開源深度罕見:多數模型只放權重與推理;華為計畫開放預訓練/後訓練程式與昇騰算子,學術與產業可重現全鏈路。

  3. 03

    時效窗口:Flash 版 6/30 剛上線,是新聞熱度與 SEO 流量峰值期(建議工作日上午 9–11 點發布類內容)。

  4. 04

    與鴻蒙 Agent 戰略綁定:HarmonyOS 7 Agent 時代原生引擎,端側 30B 模型可離線執行。

02

核心參數與 7 大開源元件

兩個版本,統一 512K 上下文

版本總參數量激活參數量稀疏比上下文狀態
openPangu 2.0 Pro505B18B~28:1512K7 月規劃上線
openPangu 2.0 Flash92B6B~15:1512K✅ 6/30 已上線

可引用:512K 上下文約等於一次處理 8 本《三體》(第一部) 的文字量;Flash 版 6B 激活意味著推理成本接近稠密 6B,但知識池為 92B。

7 大開源元件路線圖

  1. 01

    模型結構(架構定義)— ✅ 已發布

  2. 02

    模型權重(Flash 6/30 已上線,Pro 7 月)— Flash ✅

  3. 03

    技術報告(隨權重同步)— ✅ 已發布

  4. 04

    推理程式 + 訓推算子 — ✅ 已發布

  5. 05

    預訓練程式 — 📋 2026 下半年

  6. 06

    後訓練程式(SFT/RLHF)— 📋 2026 下半年

  7. 07

    訓練算子(昇騰高效能自訂算子)— 📋 2026 下半年

前四項是業界常規操作;後三項在超大規模 MoE 中極為罕見,實現真正意義上的全鏈路開源。

03

技術架構深度解析

架構創新(MoE)

  • mHC(Multi-Head Combinatorial)路由:改進專家路由效率,降低負載不均衡
  • Muon 優化器:微軟提出的二階動量方案,提升大規模訓練穩定性
  • ModAttn(Modular Attention):模組化注意力,適配 512K 超長上下文
  • DSA+SWA 超稀疏注意力(Flash 獨有):實現極致稀疏,大幅降低推理算力

訓練技術突破(可引用數據)

指標數值
超節點訓練效率+30%
512K 長序列訓練吞吐+50%
訓推一致率(MoE 關鍵指標)>99%
昇騰單卡吞吐 vs 主流開源模型2 倍
推理延遲 vs 同類模型優於 1.2 倍
Flash-Int8 量化(W4A8)記憶體 -40%,精度損失 <10%
04

昇騰硬體適配與開發者生態

openPangu 2.0 是首個在非 NVIDIA 硬體上完成全規模訓練的前沿大模型:訓練硬體為昇騰 910B NPU,全程無 A100/H100。

  • 端側:原生 30B 入端模型,推理提速 50%,記憶體 -20%,支援麒麟晶片手機離線執行
  • 軟體棧:CANN(類 CUDA)+ torch_npu(PyTorch 適配),import torch_npu 即可切換昇騰後端
  • 部署平台:華為雲 ModelArts API / GitCode 自部署 / 鴻蒙原生整合
05

競品橫向對照與選型建議

主要參數對照

模型總參數激活參數上下文訓練硬體開源程度
openPangu 2.0 Pro505B18B512K昇騰 NPU全鏈路(7 元件)
openPangu 2.0 Flash92B6B512K昇騰 NPU全鏈路(7 元件)
DeepSeek V4 Pro1.6T~200B128KNVIDIA權重+推理
Qwen 3.7 Max~400B+varies128KNVIDIA權重+推理+部分訓練
Kimi K2.71T32B256KNVIDIA權重+推理
Llama 4 405B405B128KNVIDIA權重+推理

能力矩陣(架構推斷,第三方 benchmark 待公布)

能力維度openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
程式碼生成⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
複雜推理⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
工具呼叫/Agent⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
超長上下文⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
推理效率⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
自主可控⭐⭐⭐⭐⭐
全鏈路開源⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

選型決策樹

情境推薦原因
程式碼生成 / 複雜推理DeepSeek V4 Pro200B 激活參數,效能領先
Agent / 多工具協作Kimi K2.7MCP 生態完善
超長文件(>256K Token)openPangu 2.0 Pro512K 上下文首選
國產化 / 信創 / 無 NVIDIAopenPangu 2.0唯一前沿選項
昇騰 / 華為雲部署openPangu 2.0原生優化,2x 吞吐
端側 / 手機部署openPangu Embedded(30B)麒麟晶片離線執行
低成本本地推理openPangu 2.0 Flash6B 激活,~96GB 可跑
06

取得與部署:ModelArts API 與 GitCode 自部署

方案一:華為雲 ModelArts(最快)

  1. 01

    註冊 華為雲 帳號

  2. 02

    進入 ModelArts → AI Gallery → 搜尋「openPangu 2.0」

  3. 03

    訂閱 Flash 或 Pro,取得 API Endpoint

  4. 04

    依 Chat Completions 格式呼叫(見下方 curl)

  5. 05

    在業務側設定 Token 上限與日誌稽核(企業信創情境)

ModelArts API 範例
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "你好,請介紹一下你自己"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

方案二:GitCode 自部署

倉庫:gitcode.com/org/ascend-tribe — 含 openPangu-2.0-FlashopenPangu-2.0-Flash-Int8openPangu-2.0-InferopenPangu-2.0-Op

Flash 單卡推理(昇騰 910B)
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16
Pro 多卡分散式推理
python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000
領域微調(LoRA 範例)
python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16

硬體需求參考

版本推薦硬體最低配置備註
Flash(6B 激活)單卡昇騰 910B~96GB 統一記憶體社群測試大記憶體系統可嘗試
Flash-Int8單卡昇騰 Atlas A2~48GB 顯存W4A8,精度損失 <10%
Pro(18B 激活)4+ 卡昇騰 910B多卡叢集7 月權重上線後驗證
07

戰略意義、開源協議與 HarmonyOS Agent

地緣政治與全鏈路開源價值

  • 歷史意義:全球首個在非 NVIDIA 硬體上完成前沿規模訓練的開源大模型
  • 學術研究:預訓練程式開放後可完整重現訓練流程
  • 產業客製:企業可基於專有資料做垂直域二次預訓練
  • 生態建設:降低昇騰算力門檻,擴大國產 AI 硬體生態

HarmonyOS Agent 底座

HarmonyOS 7 全面進入 Agent 智慧時代,openPangu 2.0 是 Agent 任務的原生 AI 引擎;鴻蒙智能體框架 2.0 複雜任務執行成功率 >90%;端側 30B 模型實現手機本地大模型,無需連網。

openPangu License(華為)

  • 可商業使用(Commercial Use Permitted)
  • 免版權費(Royalty-free)、非排他性
  • 具體條款以 GitCode 倉庫為準

參考連結:GitCode Ascend Tribe · 華為雲 ModelArts · HDC 2026

08

Mac 開發者:多模型 Agent 對接與圖形驗收

若你在 Mac 上透過 OpenClaw / Claude Code 編排多模型路由,把 openPangu 2.0 作為長文件專用後端國產化合規通道,建議:

  1. 01

    models 設定中新增 openPangu endpoint(ModelArts 或自建閘道)

  2. 02

    將 >128K 上下文任務路由至 openPangu,日常編碼仍走 DeepSeek / Claude

  3. 03

    固定 10 條長文件回歸提示詞,對照 512K 檢索品質

  4. 04

    華為雲 OAuth / 瀏覽器 MCP 權限在圖形 macOS 工作階段中驗收

  5. 05

    Pro 版 7 月上線後更新權重路徑與分散式推理腳本

FAQ

常見問題

Flash:92B 總參、6B 激活,6/30 已上線,適合低成本高並發;Pro:505B 總參、18B 激活,7 月規劃,適合超長文件。兩版均 512K 上下文。

是。全程在昇騰 910B NPU 訓練,無 A100/H100——全球首個在非 NVIDIA 硬體上完成前沿規模訓練並開源的大模型。

程式/複雜推理選 DeepSeek(~200B 激活);超長文件、信創、昇騰環境、全鏈路訓練程式選 openPangu 2.0

規劃 2026 年下半年,與後訓練程式、更多訓練算子一併發布;可關注 GitCode Ascend Tribe 倉庫更新。

結語

openPangu 2.0 未必是現階段綜合能力最強的開源模型(程式碼與複雜推理上 DeepSeek V4 Pro 仍領先),但在 512K 上下文、國產化自主可控、昇騰原生 2x 吞吐、全鏈路開源、端側鴻蒙整合 五個維度上幾乎無可替代。Flash 權重已 live——若你正評估多模型架構,現在正是把 openPangu 納入路由表的時間窗口。

對接 ModelArts OAuth、在 macOS 上跑 OpenClaw 多模型 Agent 或驗收 512K 長上下文工作流時,Windows/Linux 主力機常缺穩定圖形工作階段與 7×24 線上的 Mac 節點。租用 VNCMac 遠端 Mac可在 VNC 桌面完成華為雲授權、Gateway 與多後端切換核對,避免 SSH-only 漏掉鑰匙圈與瀏覽器權限彈窗。