openPangu 2.0은 정말 NVIDIA GPU 없이 학습되었나요?

예. 학습은 Huawei Ascend 910B NPU만 사용했으며, NVIDIA 하드웨어를 쓰지 않은 최초의 프론티어급 오픈 LLM입니다.

openPangu 2.0과 DeepSeek V4 Pro의 차이는?

DeepSeek은 코딩·추론(약 200B 활성 파라미터)에서 우위. openPangu는 512K 컨텍스트, 주권형/Ascend 배포, 향후 학습 코드 전면 공개로 차별화합니다.

openPangu 2.0을 로컬에서 실행하려면?

가장 빠른 방법은 Huawei Cloud ModelArts API. 셀프호스트는 GitCode Ascend Tribe에서 Flash 가중치를 받아 Ascend 910B 또는 약 96GB 통합 메모리에서 inference.py를 실행합니다.

openPangu 2.0 오픈소스 | 505B MoE 512K

01

타임라인: HDC 2026부터 GitCode 공개까지

날짜	이벤트
2026-06-12	HDC 2026 — Yu Chengdong(Richard Yu) 기조연설, openPangu 2.0 발표
2026-06-30	Flash 가중치·추론 코드·학습 오퍼레이터 GitCode 공개
2026년 7월(예정)	Pro 가중치 및 추론 코드
2026년 하반기(예정)	사전학습 코드, 사후학습 코드, 추가 오퍼레이터

이번 공개가 중요한 이유

01
수출 규제: 미국의 A100/H100 규제로 「NVIDIA 없이는 프론티어 모델 불가」가 정설이었습니다 — Ascend에서 505B MoE를 학습한 것은 그 전제에 도전합니다.
02
오픈 깊이: 대부분의 연구소는 가중치+추론만 공개합니다. Huawei는 사전/사후학습 코드와 Ascend 커널까지 계획합니다.
03
뉴스 윈도: Flash는 6월 30일 공개 — 주권형 스택을 평가하는 개발자 관심이 정점입니다.
04
HarmonyOS Agent: HarmonyOS 7 에이전트용 네이티브 엔진. 30B 엣지 모델은 Kirin 단말에서 오프라인 동작합니다.

02

스펙과 7개 오픈 컴포넌트

변형	총 파라미터	활성	희소성	컨텍스트	상태
Pro	505B	18B	약 28:1	512K	2026년 7월 예정
Flash	92B	6B	약 15:1	512K	6월 30일 공개

감각: 512K 토큰은 장편 소설 8권 분량에 해당합니다. Flash는 92B 지식을 갖추면서 토큰당 6B 파라미터만 활성화합니다.

01
모델 아키텍처 — 공개됨
02
가중치(Flash 공개, Pro 7월) — Flash 공개됨
03
기술 보고서 — 공개됨
04
추론+학습 오퍼레이터 — 공개됨
05
사전학습 코드 — 2026년 하반기
06
사후학습(SFT/RLHF) — 2026년 하반기
07
Ascend 학습 커널 — 2026년 하반기

03

아키텍처와 학습 돌파구

mHC 라우팅: Multi-Head Combinatorial 전문가 라우팅으로 부하 편향 완화
Muon 옵티마이저: 대규모 학습 안정성을 위한 2차 모멘텀
ModAttn: 512K 윈도우용 모듈러 어텐션
DSA+SWA(Flash): 추론 효율을 위한 초희소 어텐션

지표	값
하이퍼노드 학습 효율	+30%
512K 시퀀스 처리량	+50%
학습/추론 일관성(MoE)	>99%
Ascend 단일 카드 vs 주류 OSS	2× 처리량
Flash-Int8(W4A8)	메모리 -40%, 품질 손실 <10%

04

Ascend 스택과 개발자 생태계

학습은 Ascend 910B NPU만 사용 — A100/H100은 없습니다. 스택은 CANN(CUDA급 런타임) + torch_npu. 표준 PyTorch에 import torch_npu를 추가하면 백엔드를 전환합니다. 배포 경로는 ModelArts API, GitCode 셀프호스트, HarmonyOS 네이티브 통합 세 가지입니다. 엣지용 30B 임베디드 모델은 Kirin 실리콘에서 추론 속도 +50%, 메모리 -20%를 보고합니다.

05

DeepSeek·Qwen·Kimi — 솔직한 트레이드오프

모델	총량	활성	컨텍스트	하드웨어	오픈 깊이
openPangu 2.0 Pro	505B	18B	512K	Ascend	7개 컴포넌트
DeepSeek V4 Pro	1.6T	약 200B	128K	NVIDIA	가중치+추론
Qwen 3.7 Max	약 400B+	가변	128K	NVIDIA	학습 코드 일부
Kimi K2.7	1T	32B	256K	NVIDIA	가중치+추론

DeepSeek이 우위인 영역은 현재 코딩과 난해한 추론입니다. openPangu가 우위인 영역은 512K 컨텍스트(경쟁 대비 최대 4배), NVIDIA 비의존 주권형 배포, Ascend 2× 처리량, 향후 학습 파이프라인 전면 공개입니다. Kimi가 우위인 영역은 MCP 중심 Agent 툴체인입니다. 비용 민감 로컬 검증은 Flash(약 96GB), 7월 이후 장문 RAG는 Pro가 현실적입니다.

06

접근 방법: ModelArts API와 GitCode

01
Huawei Cloud 가입
02
ModelArts → AI Gallery → openPangu 2.0 검색
03
구독 후 API 엔드포인트와 토큰 복사
04
Chat Completions 호출(아래 curl)
05
모델별 과금 상한과 감사 로그 설정

ModelArts API

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"MoE를 쉽게 설명해 주세요"}],"max_tokens":1024}'

단일 Ascend 910B에서 Flash

python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

변형	권장 구성	최소 구성
Flash	1× Ascend 910B	약 96GB 통합 메모리
Flash-Int8	Atlas A2	약 48GB VRAM
Pro	4+ Ascend 910B	멀티카드 클러스터

07

주권형 AI, 라이선스, HarmonyOS Agent

openPangu License 하에서 상업적 이용이 허용되며, 로열티 없음·비독점입니다(세부는 GitCode 참조). 전략적으로 openPangu는 HarmonyOS 7 에이전트(프레임워크 2.0에서 복잡 태스크 성공률 90% 초과)를 뒷받침합니다. 2026년 하반기 사전학습 코드가 공개되면 연구자는 Ascend에서 프론티어 MoE 파이프라인을 재현할 수 있습니다 — 이 규모에서는 매우 드뭅니다.

링크: GitCode Ascend Tribe · ModelArts · HDC 2026

FAQ

예 — 학습 파이프라인은 Ascend 910B만 사용했으며 A100/H100은 없습니다.

코딩·추론은 DeepSeek, 512K 장문·주권형/Ascend 배포·향후 학습 코드 전면 공개는 openPangu에 적합합니다.

맺음말

openPangu 2.0은 현재 벤치마크 1위가 아닙니다 — 코딩 태스크에서는 DeepSeek이 여전히 앞섭니다. 다만 다른 가치를 갖습니다. NVIDIA 비의존 풀스택 프론티어 MoE로 512K 컨텍스트와 설득력 있는 오픈 로드맵을 제공합니다. Flash 가중치는 지금 사용 가능합니다.

macOS에서 openPangu를 Claude·DeepSeek과 병렬 라우팅하려면 GUI OAuth, Keychain, 상시 가동 호스트가 자주 필요합니다. 하드웨어를 구매하기 전에 실화면 Mac에서 프라이머리/폴백 페어를 검증하세요. VNCMac은 멀티모델 Agent 라우팅용 물리 Mac mini 노드를 월 임대합니다. 요금 페이지, 홈에서 확인하세요.

Huawei openPangu 2.0 오픈소스 공개NVIDIA GPU 한 장 없이 학습