MoE 505B · контекст 512K · семь компонентов · гайд по развёртыванию · vs DeepSeek
30 июня 2026 Huawei выполнил обещание HDC 2026: веса openPangu-2.0-Flash, код инференса и операторы обучения вышли на GitCode. Итог: это первый frontier-scale open LLM, полностью обученный на не-NVIDIA железе, и один из немногих с планом семи full-stack open компонентов, включая код pre-training. В гайде: хронология, архитектура mHC/ModAttn, матрица конкурентов, шаги ModelArts API и GitCode self-host, смысл для суверенного AI и проверки multi-model routing на Mac. См. также рейтинг OpenRouter за июнь.
Дисклеймер: часть оценок возможностей — архитектурные оценки; обновим после независимых бенчмарков. Опубликовано 1 июля 2026.
| Дата | Событие |
|---|---|
| 2026-06-12 | HDC 2026 — Richard Yu анонсирует openPangu 2.0 в keynote |
| 2026-06-30 | Веса Flash, код инференса, операторы обучения на GitCode |
| Июль 2026 (план) | Веса Pro и код инференса |
| H2 2026 (план) | Код pre-training, post-training, дополнительные операторы |
Экспортный контроль: ограничения США на A100/H100 закрепили тезис «без NVIDIA — нет frontier-модели»; MoE 505B на Ascend его оспаривает.
Глубина open: большинство лабораторий публикует только веса + инференс; Huawei планирует pre/post-training код и Ascend-ядра.
Новостное окно: Flash вышел 30 июня — пик интереса у разработчиков суверенных стеков.
HarmonyOS Agent: нативный движок для агентов HarmonyOS 7; edge-модель 30B офлайн на смартфонах Kirin.
| Вариант | Всего | Активных | Sparsity | Контекст | Статус |
|---|---|---|---|---|---|
| Pro | 505B | 18B | ~28:1 | 512K | Июль 2026 |
| Flash | 92B | 6B | ~15:1 | 512K | Live 30 июня |
Масштаб: 512K токенов ≈ восемь полных романов в одном промпте; Flash активирует только 6B параметров на токен при 92B знаний.
Архитектура модели — опубликована
Веса (Flash live; Pro в июле) — Flash опубликован
Технический отчёт — опубликован
Операторы инференса + обучения — опубликованы
Код pre-training — H2 2026
Post-training (SFT/RLHF) — H2 2026
Ascend training kernels — H2 2026
| Метрика | Значение |
|---|---|
| Эффективность hypernode-обучения | +30 % |
| Пропускная способность 512K | +50 % |
| Согласованность train/inference (MoE) | >99 % |
| Ascend single-card vs mainstream OSS | 2× throughput |
| Flash-Int8 (W4A8) | −40 % памяти, <10 % потери качества |
Обучение только на Ascend 910B NPU — без A100/H100. Стек: CANN (runtime класса CUDA) + torch_npu; стандартный PyTorch с import torch_npu переключает backend. Развёртывание через ModelArts API, GitCode self-host или нативную интеграцию HarmonyOS. Edge: embedded-модель 30B — на 50 % быстрее инференс, на 20 % меньше памяти на Kirin.
| Модель | Всего | Активных | Контекст | Железо | Глубина open |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend | 7 компонентов |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | веса + infer |
| Qwen 3.7 Max | ~400B+ | варьируется | 128K | NVIDIA | частично training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | веса + infer |
DeepSeek выигрывает в кодинге и сложных рассуждениях сегодня. openPangu выигрывает по контексту 512K (в 4× больше большинства конкурентов), суверенному развёртыванию без NVIDIA, 2× throughput на Ascend и планируемому полному training pipeline. Kimi выигрывает в MCP-heavy agent tooling. Flash — для локальной стоимости (~96 ГБ); Pro — для long-document RAG, когда веса выйдут в июле.
Регистрация в Huawei Cloud
ModelArts → AI Gallery → поиск openPangu 2.0
Подписка и копирование API endpoint + token
Вызов Chat Completions (curl ниже)
Лимиты биллинга по модели и audit logs
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Объясни MoE простыми словами"}],"max_tokens":1024}'
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
| Вариант | Рекомендуется | Минимум |
|---|---|---|
| Flash | 1× Ascend 910B | ~96 ГБ unified memory |
| Flash-Int8 | Atlas A2 | ~48 ГБ VRAM |
| Pro | 4+ Ascend 910B | multi-card cluster |
По openPangu License: коммерческое использование разрешено, без роялти, неэксклюзивно (условия на GitCode). Стратегически openPangu поддерживает агентов HarmonyOS 7 (>90 % успеха сложных задач на framework 2.0). Когда код pre-training выйдет во H2 2026, исследователи смогут воспроизвести frontier MoE pipeline на Ascend — редкость такого масштаба.
Ссылки: GitCode Ascend Tribe · ModelArts · HDC 2026
Да — только Ascend 910B, без A100/H100 в training pipeline.
DeepSeek — для coding/reasoning; openPangu — для документов 512K, суверенного Ascend-развёртывания и будущего полного training-кода.
openPangu 2.0 сегодня не король бенчмарков — DeepSeek всё ещё лидирует во многих coding-задачах. Это другое: NVIDIA-независимый full-stack frontier MoE с контекстом 512K и правдоподобной open roadmap. Веса Flash уже доступны.
Маршрутизация openPangu рядом с Claude или DeepSeek в OpenClaw на macOS часто требует GUI OAuth, Keychain и хоста без сна. Проверьте primary/fallback пары на Mac с реальным экраном до покупки железа. VNCMac сдаёт физические Mac mini в аренду для multi-model Agent routing — страница тарифов, главная.