Open Source LLM 1 июля 2026 ~22 мин openPangu Ascend NPU

Huawei openPangu 2.0 — open source
Обучен без единой GPU NVIDIA

MoE 505B · контекст 512K · семь компонентов · гайд по развёртыванию · vs DeepSeek

Huawei openPangu 2.0 open source MoE-модель на NPU Ascend

30 июня 2026 Huawei выполнил обещание HDC 2026: веса openPangu-2.0-Flash, код инференса и операторы обучения вышли на GitCode. Итог: это первый frontier-scale open LLM, полностью обученный на не-NVIDIA железе, и один из немногих с планом семи full-stack open компонентов, включая код pre-training. В гайде: хронология, архитектура mHC/ModAttn, матрица конкурентов, шаги ModelArts API и GitCode self-host, смысл для суверенного AI и проверки multi-model routing на Mac. См. также рейтинг OpenRouter за июнь.

Дисклеймер: часть оценок возможностей — архитектурные оценки; обновим после независимых бенчмарков. Опубликовано 1 июля 2026.

01

Хронология: от HDC 2026 до релиза на GitCode

ДатаСобытие
2026-06-12HDC 2026 — Richard Yu анонсирует openPangu 2.0 в keynote
2026-06-30Веса Flash, код инференса, операторы обучения на GitCode
Июль 2026 (план)Веса Pro и код инференса
H2 2026 (план)Код pre-training, post-training, дополнительные операторы

Почему этот релиз важен

  1. 01

    Экспортный контроль: ограничения США на A100/H100 закрепили тезис «без NVIDIA — нет frontier-модели»; MoE 505B на Ascend его оспаривает.

  2. 02

    Глубина open: большинство лабораторий публикует только веса + инференс; Huawei планирует pre/post-training код и Ascend-ядра.

  3. 03

    Новостное окно: Flash вышел 30 июня — пик интереса у разработчиков суверенных стеков.

  4. 04

    HarmonyOS Agent: нативный движок для агентов HarmonyOS 7; edge-модель 30B офлайн на смартфонах Kirin.

02

Спецификации и семь open-компонентов

ВариантВсегоАктивныхSparsityКонтекстСтатус
Pro505B18B~28:1512KИюль 2026
Flash92B6B~15:1512KLive 30 июня

Масштаб: 512K токенов ≈ восемь полных романов в одном промпте; Flash активирует только 6B параметров на токен при 92B знаний.

  1. 01

    Архитектура модели — опубликована

  2. 02

    Веса (Flash live; Pro в июле) — Flash опубликован

  3. 03

    Технический отчёт — опубликован

  4. 04

    Операторы инференса + обучения — опубликованы

  5. 05

    Код pre-training — H2 2026

  6. 06

    Post-training (SFT/RLHF) — H2 2026

  7. 07

    Ascend training kernels — H2 2026

03

Архитектура и прорывы в обучении

  • mHC routing: Multi-Head Combinatorial expert routing, меньше дисбаланса нагрузки
  • Оптимизатор Muon: second-order momentum для стабильности в большом масштабе
  • ModAttn: модульное attention для окон 512K
  • DSA+SWA (Flash): ultra-sparse attention для эффективности инференса
МетрикаЗначение
Эффективность hypernode-обучения+30 %
Пропускная способность 512K+50 %
Согласованность train/inference (MoE)>99 %
Ascend single-card vs mainstream OSS2× throughput
Flash-Int8 (W4A8)−40 % памяти, <10 % потери качества
04

Стек Ascend и экосистема разработчиков

Обучение только на Ascend 910B NPU — без A100/H100. Стек: CANN (runtime класса CUDA) + torch_npu; стандартный PyTorch с import torch_npu переключает backend. Развёртывание через ModelArts API, GitCode self-host или нативную интеграцию HarmonyOS. Edge: embedded-модель 30B — на 50 % быстрее инференс, на 20 % меньше памяти на Kirin.

05

vs DeepSeek, Qwen, Kimi — честные компромиссы

МодельВсегоАктивныхКонтекстЖелезоГлубина open
openPangu 2.0 Pro505B18B512KAscend7 компонентов
DeepSeek V4 Pro1,6T~200B128KNVIDIAвеса + infer
Qwen 3.7 Max~400B+варьируется128KNVIDIAчастично training
Kimi K2.71T32B256KNVIDIAвеса + infer

DeepSeek выигрывает в кодинге и сложных рассуждениях сегодня. openPangu выигрывает по контексту 512K (в 4× больше большинства конкурентов), суверенному развёртыванию без NVIDIA, 2× throughput на Ascend и планируемому полному training pipeline. Kimi выигрывает в MCP-heavy agent tooling. Flash — для локальной стоимости (~96 ГБ); Pro — для long-document RAG, когда веса выйдут в июле.

06

Доступ: ModelArts API и GitCode

  1. 01

    Регистрация в Huawei Cloud

  2. 02

    ModelArts → AI Gallery → поиск openPangu 2.0

  3. 03

    Подписка и копирование API endpoint + token

  4. 04

    Вызов Chat Completions (curl ниже)

  5. 05

    Лимиты биллинга по модели и audit logs

ModelArts API
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Объясни MoE простыми словами"}],"max_tokens":1024}'
Flash на одной Ascend 910B
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
ВариантРекомендуетсяМинимум
Flash1× Ascend 910B~96 ГБ unified memory
Flash-Int8Atlas A2~48 ГБ VRAM
Pro4+ Ascend 910Bmulti-card cluster
07

Суверенный AI, лицензия, агенты HarmonyOS

По openPangu License: коммерческое использование разрешено, без роялти, неэксклюзивно (условия на GitCode). Стратегически openPangu поддерживает агентов HarmonyOS 7 (>90 % успеха сложных задач на framework 2.0). Когда код pre-training выйдет во H2 2026, исследователи смогут воспроизвести frontier MoE pipeline на Ascend — редкость такого масштаба.

Ссылки: GitCode Ascend Tribe · ModelArts · HDC 2026

FAQ

FAQ

Да — только Ascend 910B, без A100/H100 в training pipeline.

DeepSeek — для coding/reasoning; openPangu — для документов 512K, суверенного Ascend-развёртывания и будущего полного training-кода.

Заключение

openPangu 2.0 сегодня не король бенчмарков — DeepSeek всё ещё лидирует во многих coding-задачах. Это другое: NVIDIA-независимый full-stack frontier MoE с контекстом 512K и правдоподобной open roadmap. Веса Flash уже доступны.

Маршрутизация openPangu рядом с Claude или DeepSeek в OpenClaw на macOS часто требует GUI OAuth, Keychain и хоста без сна. Проверьте primary/fallback пары на Mac с реальным экраном до покупки железа. VNCMac сдаёт физические Mac mini в аренду для multi-model Agent routing — страница тарифов, главная.