Wurde openPangu 2.0 wirklich ohne NVIDIA-GPUs trainiert?

Ja. Das Training lief ausschließlich auf Huawei Ascend 910B NPUs — das erste frontier-scale Open-LLM ohne NVIDIA-Hardware.

Wie schneidet openPangu 2.0 gegen DeepSeek V4 Pro ab?

DeepSeek führt bei Coding und Reasoning (~200B aktive Parameter). openPangu punktet mit 512K Kontext, souveränem Ascend-Deploy und geplanter Full-Training-Code-Freigabe.

Wie starte ich openPangu 2.0 lokal?

Am schnellsten: Huawei Cloud ModelArts API. Self-Host: Flash-Gewichte von GitCode Ascend Tribe laden und inference.py auf Ascend 910B oder ~96GB Unified Memory ausführen.

openPangu 2.0 Open Source | 505B MoE 512K

01

Zeitplan: HDC 2026 bis GitCode-Release

Datum	Ereignis
2026-06-12	HDC 2026 — Richard Yu kündigt openPangu 2.0 in der Keynote an
2026-06-30	Flash-Gewichte, Inferenzcode, Trainingsoperatoren auf GitCode
Juli 2026 (geplant)	Pro-Gewichte und Inferenzcode
H2 2026 (geplant)	Pre-Training-Code, Post-Training-Code, weitere Operatoren

Warum dieser Release wichtig ist

01
Exportkontrollen: US-Beschränkungen für A100/H100 machten „ohne NVIDIA kein Frontier-Modell“ zur Annahme — 505B MoE auf Ascend widerlegt das.
02
Open-Tiefe: Die meisten Labs liefern nur Gewichte + Inferenz; Huawei plant Pre/Post-Training-Code und Ascend-Kernel.
03
News-Fenster: Flash ging am 30. Juni live — Peak-Interesse für Entwickler mit souveränen Stacks.
04
HarmonyOS Agent: native Engine für HarmonyOS-7-Agenten; 30B Edge-Modell offline auf Kirin-Smartphones.

02

Specs und sieben Open-Komponenten

Variante	Gesamt	Aktiv	Sparsity	Kontext	Status
Pro	505B	18B	~28:1	512K	Juli 2026
Flash	92B	6B	~15:1	512K	Live 30. Juni

Einordnung: 512K Tokens ≈ acht vollständige Romane in einem Prompt; Flash aktiviert nur 6B Parameter pro Token bei 92B Wissen.

01
Modellarchitektur — veröffentlicht
02
Gewichte (Flash live; Pro Juli) — Flash veröffentlicht
03
Technischer Report — veröffentlicht
04
Inferenz- + Trainingsoperatoren — veröffentlicht
05
Pre-Training-Code — H2 2026
06
Post-Training (SFT/RLHF) — H2 2026
07
Ascend-Trainingskernel — H2 2026

03

Architektur und Trainings-Durchbrüche

mHC-Routing: Multi-Head Combinatorial Expert-Routing, weniger Last-Ungleichgewicht
Muon-Optimizer: Second-Order-Momentum für Stabilität im großen Maßstab
ModAttn: modulares Attention für 512K-Fenster
DSA+SWA (Flash): ultra-sparse Attention für Inferenz-Effizienz

Metrik	Wert
Hypernode-Trainingseffizienz	+30 %
512K-Sequenz-Durchsatz	+50 %
Train/Inferenz-Konsistenz (MoE)	>99 %
Ascend Single-Card vs. Mainstream-OSS	2× Durchsatz
Flash-Int8 (W4A8)	−40 % Speicher, <10 % Qualitätsverlust

04

Ascend-Stack und Entwickler-Ökosystem

Training ausschließlich auf Ascend 910B NPUs — kein A100/H100. Stack: CANN (CUDA-ähnliche Runtime) + torch_npu; Standard-PyTorch mit import torch_npu wechselt das Backend. Deploy über ModelArts-API, GitCode-Self-Host oder HarmonyOS-native Integration. Edge: 30B Embedded-Modell — 50 % schnellere Inferenz, 20 % weniger Speicher auf Kirin-Silicon.

05

vs DeepSeek, Qwen, Kimi — ehrliche Trade-offs

Modell	Gesamt	Aktiv	Kontext	Hardware	Open-Tiefe
openPangu 2.0 Pro	505B	18B	512K	Ascend	7 Komponenten
DeepSeek V4 Pro	1,6T	~200B	128K	NVIDIA	Gewichte + Inferenz
Qwen 3.7 Max	~400B+	variabel	128K	NVIDIA	teilw. Training
Kimi K2.7	1T	32B	256K	NVIDIA	Gewichte + Inferenz

DeepSeek gewinnt Coding und hartes Reasoning heute. openPangu gewinnt 512K Kontext (4× die meisten Rivalen), souveränes Deploy ohne NVIDIA, 2× Ascend-Durchsatz und geplante Full-Training-Pipeline. Kimi gewinnt MCP-lastiges Agent-Tooling. Flash für lokale Kosten (~96GB); Pro für Long-Document-RAG, wenn Gewichte im Juli kommen.

06

Zugang: ModelArts-API und GitCode

01
Registrierung bei Huawei Cloud
02
ModelArts → AI Gallery → openPangu 2.0 suchen
03
Abonnieren und API-Endpoint + Token kopieren
04
Chat Completions aufrufen (curl unten)
05
Abrechnungslimits pro Modell und Audit-Logs setzen

ModelArts API

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Erkläre MoE einfach"}],"max_tokens":1024}'

Flash auf einer Ascend 910B

python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

Variante	Empfohlen	Minimum
Flash	1× Ascend 910B	~96GB Unified Memory
Flash-Int8	Atlas A2	~48GB VRAM
Pro	4+ Ascend 910B	Multi-Card-Cluster

07

Souveräne KI, Lizenz, HarmonyOS-Agenten

Unter der openPangu License: kommerzielle Nutzung erlaubt, lizenzfrei, nicht-exklusiv (Details auf GitCode). Strategisch stützt openPangu HarmonyOS-7-Agenten (>90 % Erfolg bei komplexen Tasks im Framework 2.0). Wenn Pre-Training-Code H2 2026 erscheint, können Forscher eine Frontier-MoE-Pipeline auf Ascend reproduzieren — selten in dieser Größenordnung.

Links: GitCode Ascend Tribe · ModelArts · HDC 2026

FAQ

Häufige Fragen

Ja — nur Ascend 910B, kein A100/H100 in der Training-Pipeline.

DeepSeek für Coding/Reasoning; openPangu für 512K-Dokumente, souveränes Ascend-Deploy und künftigen Full-Training-Code.

Schlussgedanken

openPangu 2.0 ist heute kein Benchmark-König — DeepSeek führt bei vielen Coding-Tasks. Es ist etwas anderes: ein NVIDIA-unabhängiges, Full-Stack-Frontier-MoE mit 512K Kontext und glaubwürdiger Open-Roadmap. Flash-Gewichte sind jetzt live.

openPangu neben Claude oder DeepSeek in OpenClaw auf macOS zu routen braucht oft GUI-OAuth, Keychain und einen wachbleibenden Host. Validieren Sie Primär-/Fallback-Paare auf einem Mac mit echten Screens, bevor Sie Hardware kapitalisieren. VNCMac vermietet physische Mac-mini-Knoten monatlich für Multi-Modell-Agent-Routing — Tarifseite, Startseite.

Huaweis openPangu 2.0 ist Open SourceTrainiert ohne eine einzige NVIDIA-GPU