오픈소스 LLM 2026년 7월 1일 약 22분 openPangu Ascend NPU

Huawei openPangu 2.0 오픈소스 공개
NVIDIA GPU 한 장 없이 학습

505B MoE · 512K 컨텍스트 · 7개 컴포넌트 · 배포 가이드 · DeepSeek 비교

Huawei openPangu 2.0 오픈소스 MoE 대규모 언어 모델 Ascend NPU

2026년 6월 30일, Huawei는 HDC 2026에서 약속한 openPangu-2.0-Flash 가중치, 추론 코드, 학습 오퍼레이터를 GitCode에 공개했습니다. 핵심: 이는 NVIDIA 이외 하드웨어만으로 학습된 최초의 프론티어급 오픈 LLM이며, 사전학습 코드를 포함한 7개 풀스택 오픈 컴포넌트 공개를 계획하는 소수 프로젝트입니다. 본문은 타임라인, mHC/ModAttn 아키텍처, 경쟁 모델 비교, ModelArts API·GitCode 셀프호스트 절차, 주권형 AI 함의, Mac 측 멀티모델 라우팅 검증 포인트를 정리합니다. 중국계 모델 전체 맥락은 OpenRouter 2026년 6월 랭킹과 함께 읽으면 좋습니다.

면책: 일부 역량 평가는 아키텍처 기반 추정입니다. 독립 벤치마크 공개 후 업데이트합니다. 2026년 7월 1일 게시.

01

타임라인: HDC 2026부터 GitCode 공개까지

날짜이벤트
2026-06-12HDC 2026 — Yu Chengdong(Richard Yu) 기조연설, openPangu 2.0 발표
2026-06-30Flash 가중치·추론 코드·학습 오퍼레이터 GitCode 공개
2026년 7월(예정)Pro 가중치 및 추론 코드
2026년 하반기(예정)사전학습 코드, 사후학습 코드, 추가 오퍼레이터

이번 공개가 중요한 이유

  1. 01

    수출 규제: 미국의 A100/H100 규제로 「NVIDIA 없이는 프론티어 모델 불가」가 정설이었습니다 — Ascend에서 505B MoE를 학습한 것은 그 전제에 도전합니다.

  2. 02

    오픈 깊이: 대부분의 연구소는 가중치+추론만 공개합니다. Huawei는 사전/사후학습 코드와 Ascend 커널까지 계획합니다.

  3. 03

    뉴스 윈도: Flash는 6월 30일 공개 — 주권형 스택을 평가하는 개발자 관심이 정점입니다.

  4. 04

    HarmonyOS Agent: HarmonyOS 7 에이전트용 네이티브 엔진. 30B 엣지 모델은 Kirin 단말에서 오프라인 동작합니다.

02

스펙과 7개 오픈 컴포넌트

변형총 파라미터활성희소성컨텍스트상태
Pro505B18B약 28:1512K2026년 7월 예정
Flash92B6B약 15:1512K6월 30일 공개

감각: 512K 토큰은 장편 소설 8권 분량에 해당합니다. Flash는 92B 지식을 갖추면서 토큰당 6B 파라미터만 활성화합니다.

  1. 01

    모델 아키텍처 — 공개됨

  2. 02

    가중치(Flash 공개, Pro 7월) — Flash 공개됨

  3. 03

    기술 보고서 — 공개됨

  4. 04

    추론+학습 오퍼레이터 — 공개됨

  5. 05

    사전학습 코드 — 2026년 하반기

  6. 06

    사후학습(SFT/RLHF) — 2026년 하반기

  7. 07

    Ascend 학습 커널 — 2026년 하반기

03

아키텍처와 학습 돌파구

  • mHC 라우팅: Multi-Head Combinatorial 전문가 라우팅으로 부하 편향 완화
  • Muon 옵티마이저: 대규모 학습 안정성을 위한 2차 모멘텀
  • ModAttn: 512K 윈도우용 모듈러 어텐션
  • DSA+SWA(Flash): 추론 효율을 위한 초희소 어텐션
지표
하이퍼노드 학습 효율+30%
512K 시퀀스 처리량+50%
학습/추론 일관성(MoE)>99%
Ascend 단일 카드 vs 주류 OSS2× 처리량
Flash-Int8(W4A8)메모리 -40%, 품질 손실 <10%
04

Ascend 스택과 개발자 생태계

학습은 Ascend 910B NPU만 사용 — A100/H100은 없습니다. 스택은 CANN(CUDA급 런타임) + torch_npu. 표준 PyTorch에 import torch_npu를 추가하면 백엔드를 전환합니다. 배포 경로는 ModelArts API, GitCode 셀프호스트, HarmonyOS 네이티브 통합 세 가지입니다. 엣지용 30B 임베디드 모델은 Kirin 실리콘에서 추론 속도 +50%, 메모리 -20%를 보고합니다.

05

DeepSeek·Qwen·Kimi — 솔직한 트레이드오프

모델총량활성컨텍스트하드웨어오픈 깊이
openPangu 2.0 Pro505B18B512KAscend7개 컴포넌트
DeepSeek V4 Pro1.6T약 200B128KNVIDIA가중치+추론
Qwen 3.7 Max약 400B+가변128KNVIDIA학습 코드 일부
Kimi K2.71T32B256KNVIDIA가중치+추론

DeepSeek이 우위인 영역은 현재 코딩과 난해한 추론입니다. openPangu가 우위인 영역은 512K 컨텍스트(경쟁 대비 최대 4배), NVIDIA 비의존 주권형 배포, Ascend 2× 처리량, 향후 학습 파이프라인 전면 공개입니다. Kimi가 우위인 영역은 MCP 중심 Agent 툴체인입니다. 비용 민감 로컬 검증은 Flash(약 96GB), 7월 이후 장문 RAG는 Pro가 현실적입니다.

06

접근 방법: ModelArts API와 GitCode

  1. 01

    Huawei Cloud 가입

  2. 02

    ModelArts → AI Gallery → openPangu 2.0 검색

  3. 03

    구독 후 API 엔드포인트와 토큰 복사

  4. 04

    Chat Completions 호출(아래 curl)

  5. 05

    모델별 과금 상한과 감사 로그 설정

ModelArts API
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"MoE를 쉽게 설명해 주세요"}],"max_tokens":1024}'
단일 Ascend 910B에서 Flash
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
변형권장 구성최소 구성
Flash1× Ascend 910B약 96GB 통합 메모리
Flash-Int8Atlas A2약 48GB VRAM
Pro4+ Ascend 910B멀티카드 클러스터
07

주권형 AI, 라이선스, HarmonyOS Agent

openPangu License 하에서 상업적 이용이 허용되며, 로열티 없음·비독점입니다(세부는 GitCode 참조). 전략적으로 openPangu는 HarmonyOS 7 에이전트(프레임워크 2.0에서 복잡 태스크 성공률 90% 초과)를 뒷받침합니다. 2026년 하반기 사전학습 코드가 공개되면 연구자는 Ascend에서 프론티어 MoE 파이프라인을 재현할 수 있습니다 — 이 규모에서는 매우 드뭅니다.

링크: GitCode Ascend Tribe · ModelArts · HDC 2026

FAQ

FAQ

예 — 학습 파이프라인은 Ascend 910B만 사용했으며 A100/H100은 없습니다.

코딩·추론은 DeepSeek, 512K 장문·주권형/Ascend 배포·향후 학습 코드 전면 공개는 openPangu에 적합합니다.

맺음말

openPangu 2.0은 현재 벤치마크 1위가 아닙니다 — 코딩 태스크에서는 DeepSeek이 여전히 앞섭니다. 다만 다른 가치를 갖습니다. NVIDIA 비의존 풀스택 프론티어 MoE로 512K 컨텍스트와 설득력 있는 오픈 로드맵을 제공합니다. Flash 가중치는 지금 사용 가능합니다.

macOS에서 openPangu를 Claude·DeepSeek과 병렬 라우팅하려면 GUI OAuth, Keychain, 상시 가동 호스트가 자주 필요합니다. 하드웨어를 구매하기 전에 실화면 Mac에서 프라이머리/폴백 페어를 검증하세요. VNCMac은 멀티모델 Agent 라우팅용 물리 Mac mini 노드를 월 임대합니다. 요금 페이지, 에서 확인하세요.