LLM open source 1 juillet 2026 22 min de lecture openPangu Ascend NPU

openPangu 2.0 de Huawei est open source
Entraîné sans une seule GPU NVIDIA

MoE 505B · contexte 512K · sept composants · guide de déploiement · vs DeepSeek

Huawei openPangu 2.0 modèle MoE open source sur NPU Ascend

Le 30 juin 2026, Huawei a tenu la promesse du HDC 2026 : les poids openPangu-2.0-Flash, le code d’inférence et les opérateurs d’entraînement sont en ligne sur GitCode. Synthèse : c’est le premier LLM open source frontier entièrement entraîné sur du matériel non-NVIDIA, et l’un des rares à prévoir sept composants open source full-stack, y compris le code de pré-entraînement. Ce guide couvre la chronologie, l’architecture mHC/ModAttn, la matrice concurrentielle, les étapes ModelArts API et GitCode self-host, les enjeux d’IA souveraine et les vérifications de routage multi-modèles côté Mac. Voir aussi nos classements OpenRouter de juin pour le paysage des modèles chinois.

Avertissement : certaines évaluations de capacité sont des estimations basées sur l’architecture ; nous mettrons à jour dès que des benchmarks indépendants seront publiés. Publié le 1er juillet 2026.

01

Chronologie : du HDC 2026 au release GitCode

DateÉvénement
2026-06-12HDC 2026 — Richard Yu annonce openPangu 2.0 en keynote
2026-06-30Poids Flash, code d’inférence, opérateurs d’entraînement sur GitCode
Juillet 2026 (prévu)Poids Pro et code d’inférence
S2 2026 (prévu)Code de pré-entraînement, post-entraînement, plus d’opérateurs

Pourquoi ce release compte

  1. 01

    Contrôles à l’export : les restrictions US sur A100/H100 ont fait croire qu’« sans NVIDIA, pas de modèle frontier » — un MoE 505B sur Ascend remet cela en question.

  2. 02

    Profondeur open : la plupart des labs ne publient que poids + inférence ; Huawei prévoit le code pre/post-entraînement et les kernels Ascend.

  3. 03

    Fenêtre d’actualité : Flash est en ligne depuis le 30 juin — pic d’intérêt pour les développeurs évaluant des stacks souverains.

  4. 04

    Agent HarmonyOS : moteur natif pour les agents HarmonyOS 7 ; modèle edge 30B hors ligne sur smartphones Kirin.

02

Spécifications et sept composants open

VarianteTotalActifsSparsitéContexteStatut
Pro505B18B~28:1512KJuillet 2026
Flash92B6B~15:1512KEn ligne 30 juin

Repère : 512K tokens ≈ huit romans complets dans un seul prompt ; Flash n’active que 6B paramètres par token tout en s’appuyant sur 92B de connaissances.

  1. 01

    Architecture du modèle — publiée

  2. 02

    Poids (Flash en ligne ; Pro en juillet) — Flash publié

  3. 03

    Rapport technique — publié

  4. 04

    Opérateurs inférence + entraînement — publiés

  5. 05

    Code de pré-entraînement — S2 2026

  6. 06

    Post-entraînement (SFT/RLHF) — S2 2026

  7. 07

    Kernels d’entraînement Ascend — S2 2026

03

Architecture et avancées d’entraînement

  • Routage mHC : Multi-Head Combinatorial, moins de déséquilibre de charge entre experts
  • Optimiseur Muon : momentum d’ordre 2 pour la stabilité à grande échelle
  • ModAttn : attention modulaire pour fenêtres 512K
  • DSA+SWA (Flash) : attention ultra-sparse pour l’efficacité d’inférence
MétriqueValeur
Efficacité d’entraînement hypernode+30 %
Débit séquences 512K+50 %
Cohérence train/inférence (MoE)>99 %
Ascend mono-carte vs OSS mainstream2× débit
Flash-Int8 (W4A8)−40 % mémoire, <10 % perte qualité
04

Stack Ascend et écosystème développeur

Entraînement sur NPU Ascend 910B uniquement — pas d’A100/H100. Stack : CANN (runtime de classe CUDA) + torch_npu ; PyTorch standard avec import torch_npu bascule le backend. Déploiement via API ModelArts, self-host GitCode ou intégration native HarmonyOS. Edge : modèle embarqué 30B — inférence 50 % plus rapide, 20 % moins de mémoire sur silicium Kirin.

05

vs DeepSeek, Qwen, Kimi — compromis honnêtes

ModèleTotalActifsContexteMatérielProfondeur open
openPangu 2.0 Pro505B18B512KAscend7 composants
DeepSeek V4 Pro1,6T~200B128KNVIDIApoids + inférence
Qwen 3.7 Max~400B+variable128KNVIDIAentraînement partiel
Kimi K2.71T32B256KNVIDIApoids + inférence

DeepSeek gagne en coding et raisonnement difficile aujourd’hui. openPangu gagne sur le contexte 512K (4× la plupart des rivaux), le déploiement souverain sans NVIDIA, le débit Ascend 2× et la pipeline d’entraînement complète prévue. Kimi gagne sur l’outillage agent MCP. Choisissez Flash pour le coût local (~96 Go) ; Pro pour le RAG long document quand les poids arriveront en juillet.

06

Accès : API ModelArts et GitCode

  1. 01

    Créer un compte Huawei Cloud

  2. 02

    ModelArts → AI Gallery → rechercher openPangu 2.0

  3. 03

    S’abonner et copier endpoint API + token

  4. 04

    Appeler Chat Completions (curl ci-dessous)

  5. 05

    Définir plafonds de facturation par modèle et journaux d’audit

API ModelArts
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Explique MoE simplement"}],"max_tokens":1024}'
Flash sur une Ascend 910B
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
VarianteRecommandéMinimum
Flash1× Ascend 910B~96 Go mémoire unifiée
Flash-Int8Atlas A2~48 Go VRAM
Pro4+ Ascend 910Bcluster multi-cartes
07

IA souveraine, licence, agents HarmonyOS

Sous la openPangu License : usage commercial autorisé, sans redevance, non exclusif (voir GitCode pour les termes). Stratégiquement, openPangu soutient les agents HarmonyOS 7 (>90 % de succès sur tâches complexes avec le framework 2.0). Quand le code de pré-entraînement sortira au S2 2026, les chercheurs pourront reproduire une pipeline MoE frontier sur Ascend — rare à cette échelle.

Liens : GitCode Ascend Tribe · ModelArts · HDC 2026

FAQ

FAQ

Oui — Ascend 910B uniquement, pas d’A100/H100 dans la pipeline d’entraînement.

DeepSeek pour coding/raisonnement ; openPangu pour documents 512K, déploiement souverain/Ascend et futur code d’entraînement complet.

Conclusion

openPangu 2.0 n’est pas le roi des benchmarks aujourd’hui — DeepSeek mène encore sur de nombreuses tâches de coding. C’est autre chose : un MoE frontier full-stack indépendant de NVIDIA avec contexte 512K et une feuille de route open crédible. Les poids Flash sont en ligne dès maintenant.

Router openPangu aux côtés de Claude ou DeepSeek dans OpenClaw sur macOS exige souvent OAuth GUI, Keychain et un hôte toujours actif. Validez les paires primaire/fallback sur un Mac avec écran réel avant d’acheter du matériel. VNCMac loue des nœuds Mac mini physiques au mois pour le routage Agent multi-modèles — page tarifs, accueil.