505B MoE · 512K Kontext · sieben Komponenten · Deploy-Guide · vs DeepSeek
Am 30. Juni 2026 hielt Huawei das HDC-2026-Versprechen ein: openPangu-2.0-Flash Gewichte, Inferenzcode und Trainingsoperatoren sind auf GitCode live. Kernbefund: Das ist das erste frontier-scale Open-LLM, vollständig auf Nicht-NVIDIA-Hardware trainiert, und eines der wenigen mit geplanten sieben Full-Stack-Open-Komponenten inklusive Pre-Training-Code. Dieser Guide deckt Zeitplan, mHC/ModAttn-Architektur, Wettbewerbsmatrix, ModelArts-API und GitCode-Self-Host, souveräne-KI-Implikationen und Mac-seitige Multi-Modell-Routing-Checks ab. Siehe auch unsere OpenRouter-Rankings Juni für das breitere China-Modell-Bild.
Hinweis: Einige Leistungsbewertungen basieren auf Architektur-Schätzungen; wir aktualisieren nach unabhängigen Benchmarks. Veröffentlicht am 1. Juli 2026.
| Datum | Ereignis |
|---|---|
| 2026-06-12 | HDC 2026 — Richard Yu kündigt openPangu 2.0 in der Keynote an |
| 2026-06-30 | Flash-Gewichte, Inferenzcode, Trainingsoperatoren auf GitCode |
| Juli 2026 (geplant) | Pro-Gewichte und Inferenzcode |
| H2 2026 (geplant) | Pre-Training-Code, Post-Training-Code, weitere Operatoren |
Exportkontrollen: US-Beschränkungen für A100/H100 machten „ohne NVIDIA kein Frontier-Modell“ zur Annahme — 505B MoE auf Ascend widerlegt das.
Open-Tiefe: Die meisten Labs liefern nur Gewichte + Inferenz; Huawei plant Pre/Post-Training-Code und Ascend-Kernel.
News-Fenster: Flash ging am 30. Juni live — Peak-Interesse für Entwickler mit souveränen Stacks.
HarmonyOS Agent: native Engine für HarmonyOS-7-Agenten; 30B Edge-Modell offline auf Kirin-Smartphones.
| Variante | Gesamt | Aktiv | Sparsity | Kontext | Status |
|---|---|---|---|---|---|
| Pro | 505B | 18B | ~28:1 | 512K | Juli 2026 |
| Flash | 92B | 6B | ~15:1 | 512K | Live 30. Juni |
Einordnung: 512K Tokens ≈ acht vollständige Romane in einem Prompt; Flash aktiviert nur 6B Parameter pro Token bei 92B Wissen.
Modellarchitektur — veröffentlicht
Gewichte (Flash live; Pro Juli) — Flash veröffentlicht
Technischer Report — veröffentlicht
Inferenz- + Trainingsoperatoren — veröffentlicht
Pre-Training-Code — H2 2026
Post-Training (SFT/RLHF) — H2 2026
Ascend-Trainingskernel — H2 2026
| Metrik | Wert |
|---|---|
| Hypernode-Trainingseffizienz | +30 % |
| 512K-Sequenz-Durchsatz | +50 % |
| Train/Inferenz-Konsistenz (MoE) | >99 % |
| Ascend Single-Card vs. Mainstream-OSS | 2× Durchsatz |
| Flash-Int8 (W4A8) | −40 % Speicher, <10 % Qualitätsverlust |
Training ausschließlich auf Ascend 910B NPUs — kein A100/H100. Stack: CANN (CUDA-ähnliche Runtime) + torch_npu; Standard-PyTorch mit import torch_npu wechselt das Backend. Deploy über ModelArts-API, GitCode-Self-Host oder HarmonyOS-native Integration. Edge: 30B Embedded-Modell — 50 % schnellere Inferenz, 20 % weniger Speicher auf Kirin-Silicon.
| Modell | Gesamt | Aktiv | Kontext | Hardware | Open-Tiefe |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend | 7 Komponenten |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Gewichte + Inferenz |
| Qwen 3.7 Max | ~400B+ | variabel | 128K | NVIDIA | teilw. Training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Gewichte + Inferenz |
DeepSeek gewinnt Coding und hartes Reasoning heute. openPangu gewinnt 512K Kontext (4× die meisten Rivalen), souveränes Deploy ohne NVIDIA, 2× Ascend-Durchsatz und geplante Full-Training-Pipeline. Kimi gewinnt MCP-lastiges Agent-Tooling. Flash für lokale Kosten (~96GB); Pro für Long-Document-RAG, wenn Gewichte im Juli kommen.
Registrierung bei Huawei Cloud
ModelArts → AI Gallery → openPangu 2.0 suchen
Abonnieren und API-Endpoint + Token kopieren
Chat Completions aufrufen (curl unten)
Abrechnungslimits pro Modell und Audit-Logs setzen
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Erkläre MoE einfach"}],"max_tokens":1024}'
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
| Variante | Empfohlen | Minimum |
|---|---|---|
| Flash | 1× Ascend 910B | ~96GB Unified Memory |
| Flash-Int8 | Atlas A2 | ~48GB VRAM |
| Pro | 4+ Ascend 910B | Multi-Card-Cluster |
Unter der openPangu License: kommerzielle Nutzung erlaubt, lizenzfrei, nicht-exklusiv (Details auf GitCode). Strategisch stützt openPangu HarmonyOS-7-Agenten (>90 % Erfolg bei komplexen Tasks im Framework 2.0). Wenn Pre-Training-Code H2 2026 erscheint, können Forscher eine Frontier-MoE-Pipeline auf Ascend reproduzieren — selten in dieser Größenordnung.
Links: GitCode Ascend Tribe · ModelArts · HDC 2026
Ja — nur Ascend 910B, kein A100/H100 in der Training-Pipeline.
DeepSeek für Coding/Reasoning; openPangu für 512K-Dokumente, souveränes Ascend-Deploy und künftigen Full-Training-Code.
openPangu 2.0 ist heute kein Benchmark-König — DeepSeek führt bei vielen Coding-Tasks. Es ist etwas anderes: ein NVIDIA-unabhängiges, Full-Stack-Frontier-MoE mit 512K Kontext und glaubwürdiger Open-Roadmap. Flash-Gewichte sind jetzt live.
openPangu neben Claude oder DeepSeek in OpenClaw auf macOS zu routen braucht oft GUI-OAuth, Keychain und einen wachbleibenden Host. Validieren Sie Primär-/Fallback-Paare auf einem Mac mit echten Screens, bevor Sie Hardware kapitalisieren. VNCMac vermietet physische Mac-mini-Knoten monatlich für Multi-Modell-Agent-Routing — Tarifseite, Startseite.