MoE 505B · contexte 512K · sept composants · guide de déploiement · vs DeepSeek
Le 30 juin 2026, Huawei a tenu la promesse du HDC 2026 : les poids openPangu-2.0-Flash, le code d’inférence et les opérateurs d’entraînement sont en ligne sur GitCode. Synthèse : c’est le premier LLM open source frontier entièrement entraîné sur du matériel non-NVIDIA, et l’un des rares à prévoir sept composants open source full-stack, y compris le code de pré-entraînement. Ce guide couvre la chronologie, l’architecture mHC/ModAttn, la matrice concurrentielle, les étapes ModelArts API et GitCode self-host, les enjeux d’IA souveraine et les vérifications de routage multi-modèles côté Mac. Voir aussi nos classements OpenRouter de juin pour le paysage des modèles chinois.
Avertissement : certaines évaluations de capacité sont des estimations basées sur l’architecture ; nous mettrons à jour dès que des benchmarks indépendants seront publiés. Publié le 1er juillet 2026.
| Date | Événement |
|---|---|
| 2026-06-12 | HDC 2026 — Richard Yu annonce openPangu 2.0 en keynote |
| 2026-06-30 | Poids Flash, code d’inférence, opérateurs d’entraînement sur GitCode |
| Juillet 2026 (prévu) | Poids Pro et code d’inférence |
| S2 2026 (prévu) | Code de pré-entraînement, post-entraînement, plus d’opérateurs |
Contrôles à l’export : les restrictions US sur A100/H100 ont fait croire qu’« sans NVIDIA, pas de modèle frontier » — un MoE 505B sur Ascend remet cela en question.
Profondeur open : la plupart des labs ne publient que poids + inférence ; Huawei prévoit le code pre/post-entraînement et les kernels Ascend.
Fenêtre d’actualité : Flash est en ligne depuis le 30 juin — pic d’intérêt pour les développeurs évaluant des stacks souverains.
Agent HarmonyOS : moteur natif pour les agents HarmonyOS 7 ; modèle edge 30B hors ligne sur smartphones Kirin.
| Variante | Total | Actifs | Sparsité | Contexte | Statut |
|---|---|---|---|---|---|
| Pro | 505B | 18B | ~28:1 | 512K | Juillet 2026 |
| Flash | 92B | 6B | ~15:1 | 512K | En ligne 30 juin |
Repère : 512K tokens ≈ huit romans complets dans un seul prompt ; Flash n’active que 6B paramètres par token tout en s’appuyant sur 92B de connaissances.
Architecture du modèle — publiée
Poids (Flash en ligne ; Pro en juillet) — Flash publié
Rapport technique — publié
Opérateurs inférence + entraînement — publiés
Code de pré-entraînement — S2 2026
Post-entraînement (SFT/RLHF) — S2 2026
Kernels d’entraînement Ascend — S2 2026
| Métrique | Valeur |
|---|---|
| Efficacité d’entraînement hypernode | +30 % |
| Débit séquences 512K | +50 % |
| Cohérence train/inférence (MoE) | >99 % |
| Ascend mono-carte vs OSS mainstream | 2× débit |
| Flash-Int8 (W4A8) | −40 % mémoire, <10 % perte qualité |
Entraînement sur NPU Ascend 910B uniquement — pas d’A100/H100. Stack : CANN (runtime de classe CUDA) + torch_npu ; PyTorch standard avec import torch_npu bascule le backend. Déploiement via API ModelArts, self-host GitCode ou intégration native HarmonyOS. Edge : modèle embarqué 30B — inférence 50 % plus rapide, 20 % moins de mémoire sur silicium Kirin.
| Modèle | Total | Actifs | Contexte | Matériel | Profondeur open |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend | 7 composants |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | poids + inférence |
| Qwen 3.7 Max | ~400B+ | variable | 128K | NVIDIA | entraînement partiel |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | poids + inférence |
DeepSeek gagne en coding et raisonnement difficile aujourd’hui. openPangu gagne sur le contexte 512K (4× la plupart des rivaux), le déploiement souverain sans NVIDIA, le débit Ascend 2× et la pipeline d’entraînement complète prévue. Kimi gagne sur l’outillage agent MCP. Choisissez Flash pour le coût local (~96 Go) ; Pro pour le RAG long document quand les poids arriveront en juillet.
Créer un compte Huawei Cloud
ModelArts → AI Gallery → rechercher openPangu 2.0
S’abonner et copier endpoint API + token
Appeler Chat Completions (curl ci-dessous)
Définir plafonds de facturation par modèle et journaux d’audit
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Explique MoE simplement"}],"max_tokens":1024}'
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
| Variante | Recommandé | Minimum |
|---|---|---|
| Flash | 1× Ascend 910B | ~96 Go mémoire unifiée |
| Flash-Int8 | Atlas A2 | ~48 Go VRAM |
| Pro | 4+ Ascend 910B | cluster multi-cartes |
Sous la openPangu License : usage commercial autorisé, sans redevance, non exclusif (voir GitCode pour les termes). Stratégiquement, openPangu soutient les agents HarmonyOS 7 (>90 % de succès sur tâches complexes avec le framework 2.0). Quand le code de pré-entraînement sortira au S2 2026, les chercheurs pourront reproduire une pipeline MoE frontier sur Ascend — rare à cette échelle.
Liens : GitCode Ascend Tribe · ModelArts · HDC 2026
Oui — Ascend 910B uniquement, pas d’A100/H100 dans la pipeline d’entraînement.
DeepSeek pour coding/raisonnement ; openPangu pour documents 512K, déploiement souverain/Ascend et futur code d’entraînement complet.
openPangu 2.0 n’est pas le roi des benchmarks aujourd’hui — DeepSeek mène encore sur de nombreuses tâches de coding. C’est autre chose : un MoE frontier full-stack indépendant de NVIDIA avec contexte 512K et une feuille de route open crédible. Les poids Flash sont en ligne dès maintenant.
Router openPangu aux côtés de Claude ou DeepSeek dans OpenClaw sur macOS exige souvent OAuth GUI, Keychain et un hôte toujours actif. Validez les paires primaire/fallback sur un Mac avec écran réel avant d’acheter du matériel. VNCMac loue des nœuds Mac mini physiques au mois pour le routage Agent multi-modèles — page tarifs, accueil.