Open-Source-LLM 1. Juli 2026 ca. 22 Min. openPangu Ascend NPU

Huaweis openPangu 2.0 ist Open Source
Trainiert ohne eine einzige NVIDIA-GPU

505B MoE · 512K Kontext · sieben Komponenten · Deploy-Guide · vs DeepSeek

Huawei openPangu 2.0 Open-Source-MoE-Modell auf Ascend NPU

Am 30. Juni 2026 hielt Huawei das HDC-2026-Versprechen ein: openPangu-2.0-Flash Gewichte, Inferenzcode und Trainingsoperatoren sind auf GitCode live. Kernbefund: Das ist das erste frontier-scale Open-LLM, vollständig auf Nicht-NVIDIA-Hardware trainiert, und eines der wenigen mit geplanten sieben Full-Stack-Open-Komponenten inklusive Pre-Training-Code. Dieser Guide deckt Zeitplan, mHC/ModAttn-Architektur, Wettbewerbsmatrix, ModelArts-API und GitCode-Self-Host, souveräne-KI-Implikationen und Mac-seitige Multi-Modell-Routing-Checks ab. Siehe auch unsere OpenRouter-Rankings Juni für das breitere China-Modell-Bild.

Hinweis: Einige Leistungsbewertungen basieren auf Architektur-Schätzungen; wir aktualisieren nach unabhängigen Benchmarks. Veröffentlicht am 1. Juli 2026.

01

Zeitplan: HDC 2026 bis GitCode-Release

DatumEreignis
2026-06-12HDC 2026 — Richard Yu kündigt openPangu 2.0 in der Keynote an
2026-06-30Flash-Gewichte, Inferenzcode, Trainingsoperatoren auf GitCode
Juli 2026 (geplant)Pro-Gewichte und Inferenzcode
H2 2026 (geplant)Pre-Training-Code, Post-Training-Code, weitere Operatoren

Warum dieser Release wichtig ist

  1. 01

    Exportkontrollen: US-Beschränkungen für A100/H100 machten „ohne NVIDIA kein Frontier-Modell“ zur Annahme — 505B MoE auf Ascend widerlegt das.

  2. 02

    Open-Tiefe: Die meisten Labs liefern nur Gewichte + Inferenz; Huawei plant Pre/Post-Training-Code und Ascend-Kernel.

  3. 03

    News-Fenster: Flash ging am 30. Juni live — Peak-Interesse für Entwickler mit souveränen Stacks.

  4. 04

    HarmonyOS Agent: native Engine für HarmonyOS-7-Agenten; 30B Edge-Modell offline auf Kirin-Smartphones.

02

Specs und sieben Open-Komponenten

VarianteGesamtAktivSparsityKontextStatus
Pro505B18B~28:1512KJuli 2026
Flash92B6B~15:1512KLive 30. Juni

Einordnung: 512K Tokens ≈ acht vollständige Romane in einem Prompt; Flash aktiviert nur 6B Parameter pro Token bei 92B Wissen.

  1. 01

    Modellarchitektur — veröffentlicht

  2. 02

    Gewichte (Flash live; Pro Juli) — Flash veröffentlicht

  3. 03

    Technischer Report — veröffentlicht

  4. 04

    Inferenz- + Trainingsoperatoren — veröffentlicht

  5. 05

    Pre-Training-Code — H2 2026

  6. 06

    Post-Training (SFT/RLHF) — H2 2026

  7. 07

    Ascend-Trainingskernel — H2 2026

03

Architektur und Trainings-Durchbrüche

  • mHC-Routing: Multi-Head Combinatorial Expert-Routing, weniger Last-Ungleichgewicht
  • Muon-Optimizer: Second-Order-Momentum für Stabilität im großen Maßstab
  • ModAttn: modulares Attention für 512K-Fenster
  • DSA+SWA (Flash): ultra-sparse Attention für Inferenz-Effizienz
MetrikWert
Hypernode-Trainingseffizienz+30 %
512K-Sequenz-Durchsatz+50 %
Train/Inferenz-Konsistenz (MoE)>99 %
Ascend Single-Card vs. Mainstream-OSS2× Durchsatz
Flash-Int8 (W4A8)−40 % Speicher, <10 % Qualitätsverlust
04

Ascend-Stack und Entwickler-Ökosystem

Training ausschließlich auf Ascend 910B NPUs — kein A100/H100. Stack: CANN (CUDA-ähnliche Runtime) + torch_npu; Standard-PyTorch mit import torch_npu wechselt das Backend. Deploy über ModelArts-API, GitCode-Self-Host oder HarmonyOS-native Integration. Edge: 30B Embedded-Modell — 50 % schnellere Inferenz, 20 % weniger Speicher auf Kirin-Silicon.

05

vs DeepSeek, Qwen, Kimi — ehrliche Trade-offs

ModellGesamtAktivKontextHardwareOpen-Tiefe
openPangu 2.0 Pro505B18B512KAscend7 Komponenten
DeepSeek V4 Pro1,6T~200B128KNVIDIAGewichte + Inferenz
Qwen 3.7 Max~400B+variabel128KNVIDIAteilw. Training
Kimi K2.71T32B256KNVIDIAGewichte + Inferenz

DeepSeek gewinnt Coding und hartes Reasoning heute. openPangu gewinnt 512K Kontext (4× die meisten Rivalen), souveränes Deploy ohne NVIDIA, 2× Ascend-Durchsatz und geplante Full-Training-Pipeline. Kimi gewinnt MCP-lastiges Agent-Tooling. Flash für lokale Kosten (~96GB); Pro für Long-Document-RAG, wenn Gewichte im Juli kommen.

06

Zugang: ModelArts-API und GitCode

  1. 01

    Registrierung bei Huawei Cloud

  2. 02

    ModelArts → AI Gallery → openPangu 2.0 suchen

  3. 03

    Abonnieren und API-Endpoint + Token kopieren

  4. 04

    Chat Completions aufrufen (curl unten)

  5. 05

    Abrechnungslimits pro Modell und Audit-Logs setzen

ModelArts API
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Erkläre MoE einfach"}],"max_tokens":1024}'
Flash auf einer Ascend 910B
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
VarianteEmpfohlenMinimum
Flash1× Ascend 910B~96GB Unified Memory
Flash-Int8Atlas A2~48GB VRAM
Pro4+ Ascend 910BMulti-Card-Cluster
07

Souveräne KI, Lizenz, HarmonyOS-Agenten

Unter der openPangu License: kommerzielle Nutzung erlaubt, lizenzfrei, nicht-exklusiv (Details auf GitCode). Strategisch stützt openPangu HarmonyOS-7-Agenten (>90 % Erfolg bei komplexen Tasks im Framework 2.0). Wenn Pre-Training-Code H2 2026 erscheint, können Forscher eine Frontier-MoE-Pipeline auf Ascend reproduzieren — selten in dieser Größenordnung.

Links: GitCode Ascend Tribe · ModelArts · HDC 2026

FAQ

Häufige Fragen

Ja — nur Ascend 910B, kein A100/H100 in der Training-Pipeline.

DeepSeek für Coding/Reasoning; openPangu für 512K-Dokumente, souveränes Ascend-Deploy und künftigen Full-Training-Code.

Schlussgedanken

openPangu 2.0 ist heute kein Benchmark-König — DeepSeek führt bei vielen Coding-Tasks. Es ist etwas anderes: ein NVIDIA-unabhängiges, Full-Stack-Frontier-MoE mit 512K Kontext und glaubwürdiger Open-Roadmap. Flash-Gewichte sind jetzt live.

openPangu neben Claude oder DeepSeek in OpenClaw auf macOS zu routen braucht oft GUI-OAuth, Keychain und einen wachbleibenden Host. Validieren Sie Primär-/Fallback-Paare auf einem Mac mit echten Screens, bevor Sie Hardware kapitalisieren. VNCMac vermietet physische Mac-mini-Knoten monatlich für Multi-Modell-Agent-Routing — Tarifseite, Startseite.