DwarfStar · Metal 優先 · 統一記憶體 · TCO 對照 · VNC 60 分鐘跑通清單
Redis 作者 antirez 在 2026 年 5 月開源了一款專為 DeepSeek V4 量身打造的純 C 推論引擎 ds4(DwarfStar),專案一週內 GitHub Star 突破 11k,第一次讓前沿大模型在 Apple Silicon Mac 本機「真正能用」。但 96GB / 256GB / 512GB 起步的統一記憶體門檻,讓多數獨立開發者、AI 研究員與技術部落客只能遠遠觀望。本文給出 ds4 效能與硬體門檻對照表、UMA 統一記憶體 vs NVIDIA HBM 在消費級的代差、自購 vs 租用遠端 Mac 的 TCO 計算,以及在 VNCMac 遠端 Mac(VNC 圖形會話)上 60 分鐘跑通 ds4 + DeepSeek V4 Flash 的最小路徑與 SSH 不夠的 GUI 卡點;與CoreWeave 千億 backlog、OpenClaw + Ollama 本機嵌入、OpenClaw 出站 Proxy互聯,把「跑前沿大模型」與「日常 iOS / Agent 工作流」放進同一台租用節點。
ds4(DwarfStar)一上線即被冠以「Mac 上跑 DeepSeek V4 的最佳本機引擎」並非偶然。antirez 這個名字本身就是品牌——他是 Redis 的作者、C 語言界少數把「極少程式碼、極致單機效能」做成審美的工程師;這次他把 Redis 時代那套少依賴、零黑魔法、所有路徑都可讀懂的寫法帶進了大模型推論。下列五點是 ds4 與通用推論框架(如 llama.cpp、MLX、ollama、vllm)在 Mac 場景下的核心差異,也是它能在一週內衝到 11k Star 的真實原因。
純 C,不依賴第三方推論框架:全量自實作,編譯產物只有一個執行檔;可在 MacBook Pro 上 make 後立刻跑,避免 Python / CUDA / pip 解譯器棧把首跑時間拖到幾個小時。
Metal 優先:深度適配 Apple Silicon GPU,官方在 MacBook Pro M5 Max 上跑出 prefill 463 t/s、生成 34 t/s 的成績,超越多數同價位 PC + 消費級 NVIDIA 方案的實測吞吐。
百萬 Token 上下文:支援 1M token 上下文視窗,配合 DeepSeek V4 本身極度壓縮的 KV 快取設計,長文件與多輪程式碼會話不再是「一次次重讀」。
磁碟 KV 快取持久化:把 KV Cache 落盤到 Mac 高速 SSD,會話之間保留完整上下文,無需在每次啟動時重新 prefill;這一點幾乎是為 macOS 這種「闔蓋即睡」的工作流量身打造。
2-bit 量化與內建 Agent:僅對路由專家做激進量化、其餘層保持精度,讓 Flash 模型在 128GB Mac 上流暢跑;同時原生 Tool Calling,相容 OpenAI / Anthropic API,可無縫對接 Cursor、opencode 等主流編碼 Agent。
這套設計的「政治意義」遠大於效能本身——它把跑前沿大模型的入口從「雲端商 + 萬元 GPU」拉回到「一台 MacBook + 一個執行檔」。它隱含的另一句話則更刺耳:真正的門檻,已經不在軟體,而在硬體成本。下面第 02 節給出真實硬體門檻對照,便於你判斷自己離 ds4 實際還差多少米。
ds4 的效能數字很漂亮,但下面這張表才是多數讀者真正要看的一欄:哪一檔量化、哪一台 Mac、多少錢。表內售價為 2026 年 5 月台港繁中區主流通路參考價,僅用於做量級比較,請以你下單時官方報價為準。
| 模型版本 | 最低統一記憶體 | 對應 Mac 機型(2026) | 參考售價(TWD) | 典型場景 |
|---|---|---|---|---|
| DeepSeek V4 Flash · q2 量化 | 96 GB | MacBook Pro M3/M4/M5 Max(96 GB UMA) | NT$ 130,000 起 | 個人編碼助手、文件問答、研究探索 |
| DeepSeek V4 Flash · q4 量化 | 256 GB | Mac Studio M3/M4 Ultra(256 GB UMA) | NT$ 260,000 起 | 更穩定輸出、長上下文工程問答 |
| DeepSeek V4 PRO · q2 量化 | 512 GB | Mac Studio M3 Ultra 頂規(512 GB UMA) | NT$ 480,000 起 | 本機代理、對外 API 服務、自研 Agent |
| DeepSeek V4 PRO · q4 量化 | 1 TB+ | 無消費級整機,需多機 / 伺服器級方案 | — | 研究團隊、平台型部署 |
幾個容易被忽略的細節:第一,96 GB 是「能跑 Flash q2」的下限,不是「跑得舒服」的下限——若你同時開 Xcode、Chrome 與幾個 Slack 工作區,建議留出 20–30 GB 給系統與日常工具,否則推論過程中觸發 swap,prefill 速度會直接掉一半。第二,q4 比 q2 輸出更穩定,但記憶體與磁碟 KV 快取的成本也線性上升,對獨立開發者來說,先用 q2 驗證你的真實負載再決定是否升級,是更經濟的路徑。第三,PRO q4 目前沒有消費級整機能直接跑,真要做平台型部署還是要走多機或伺服器路徑,不要被「Mac 萬能」的宣傳帶偏。
先用 q2 跑通你的真實工作負載,再決定要不要把記憶體升到 256 GB 或 512 GB;先把流程跑通,再談極限效能。
ds4 把 Metal 後端列為「首要目標」,並不是因為 antirez 偏愛 macOS——他真正押注的是 Apple Silicon 的統一記憶體架構(UMA, Unified Memory Architecture)。在消費級硬體這一段,UMA 的物理結構對大模型推論有幾條幾乎無法被 NVIDIA 複製的優勢。
CPU 與 GPU 共用同一池大記憶體:M3/M4/M5 系列把記憶體晶片直接焊在 SoC 上,CPU 與 GPU 共用同一塊 96–512 GB;模型權重不需要在 CPU RAM 與 GPU VRAM 之間複製一遍,省下 PCIe 傳輸與顯存吃緊帶來的 OOM 風險。
消費級顯存上限的天花板:消費級 NVIDIA 顯示卡當前 VRAM 普遍停在 24–32 GB;要裝下 DeepSeek V4 Flash q2(約 90 GB 權重)只能走多卡或 CPU offload,吞吐立刻被 PCIe 與跨卡通訊吃掉一大半。
高頻寬 + 低功耗:M4/M5 Max 的記憶體頻寬對位 HBM 不輸太多,但整機功耗只有幾十瓦,家用電路就能驅動;同等顯存的 GPU 伺服器通常需要專用 PDU 與機櫃散熱。
SSD 與 KV 快取的「天然契合」:macOS 高速 NVMe SSD 順序讀寫普遍 5 GB/s 以上,ds4 把 KV Cache 落盤後下一次會話秒級恢復;同樣的方案放到 PCIe SSD + Linux 上雖然能實作,但要自己處理排程、鎖與 mmap 的邊界條件。
不可忽略的代價:UMA 把所有 RAM 焊死在 SoC 上,買定離手——一台 128 GB 的 MacBook Pro 永遠不可能升到 256 GB,這也是為什麼「先租後買」在 2026 年特別理性,下一節會展開算帳。
換句話說,「為什麼必須是 Mac」並不是行銷話術,而是消費級硬體這一段,只有 Apple Silicon 提供了 96 GB 起步的統一記憶體。把眼光放寬到資料中心,NVIDIA H200 / B100 仍然是訓練側無可爭議的王者;但要把推論側拉到「一個人也能跑」,Mac 是當前唯一被工程師認真適配的消費級平台。這也是 ds4 為什麼從一開始就放棄「跨平台通用」目標的根本原因。
下面這張表用「1 年總成本」做最簡化對照,便於你和團隊一起評估是「咬牙買一台 Mac Studio Ultra」還是「按需租 VNCMac 遠端 Mac」更划算。表中所有數字均為 2026 年 5 月台港繁中區參考量級,請按你實際報價與電費替換。
| 方案 | 初始投入 | 年均隱性成本 | 1 年總成本(輕度) | 回本週期 / 適用畫像 |
|---|---|---|---|---|
| 自購 MacBook Pro M5 Max 96GB | NT$ 130,000 起 | 電費 / 折舊 / 升級困難 NT$ 12k–18k | ≈ NT$ 145,000+ | 每天 ≥ 3 小時長期使用;3 年回本 |
| 自購 Mac Studio Ultra 256GB | NT$ 260,000 起 | 電費 / 噪音 / 折舊 NT$ 22k–30k | ≈ NT$ 285,000+ | 團隊共享、日均高強度推論 |
| 自購 Mac Studio Ultra 頂規 512GB | NT$ 480,000 起 | 電費 / 維護 / 折舊 NT$ 32k–48k | ≈ NT$ 520,000+ | 對外提供 API、研究型重負載 |
| 租 VNCMac 96GB+ 遠端 Mac(按月) | NT$ 0 | 固定月租 × 實際開機月數 | 按使用量計,可低至自購的 1/3–1/5 | 專案制 / 偶發推論 / 評估期 |
| 租 VNCMac 高記憶體節點(按小時) | NT$ 0 | 跑完即停,無空轉費用 | 更低(僅算實際推論小時) | 短期評估、單次 PoC、Demo 錄製 |
讀這張表的正確姿勢不是「哪一行最便宜」,而是定位自己的使用畫像。如果你每天連續推論 ≥ 3 小時、節奏穩定且持續 3 年以上,自購 96 GB 起步的 MacBook Pro 在第三年大概率會回本;但如果你的真實需求是「偶爾跑幾次 ds4 評估」「為客戶做一次 Demo」「跟一兩個版本看看 DeepSeek V4 進化」,按小時租用的現金流模型遠比一次性付掉幾十萬更友好,而且你不用承擔三年後機器貶值與無法升級的風險。下面這段示意 JSON 是一個用來給團隊算帳的最小範本。
{
"scenario": "ds4_deepseek_v4_flash_q2",
"daily_active_hours": 2.0,
"active_days_per_year": 180,
"owned_total_cost": 145000,
"rental_hourly_rate": 35,
"rental_year_cost": "daily_active_hours * active_days_per_year * rental_hourly_rate",
"break_even_years": "owned_total_cost / rental_year_cost"
}
提示:把上面 5 個數字按你自己的真實使用替換一遍——多數評估期、外包、獨立開發者填完後會發現 break_even_years > 3,這正是「先租後買」最有說服力的場景。
還有兩條容易被忽略的成本:電費與機房噪音。Mac Studio Ultra 滿載推論時整機功耗約 200–300 W,長期 24×7 運行不僅電費多一檔,散熱風扇噪音在家庭/合租空間也是真實負擔;租用遠端 Mac 把這部分體感成本外包給資料中心,是很多自由工作者最終選擇租賃的隱藏原因。
第三、四節定完「該不該買」,本節給出一條可複製貼上的最小驗證路徑:從下單 VNCMac 高記憶體節點到在瀏覽器裡和 DeepSeek V4 Flash 對話,目標 60 分鐘以內跑通;其中標 ★ 的步驟在 SSH-only 會話裡會卡住,是 VNC 圖形會話不可替代的部分。
選節點:在 購買頁選擇記憶體 ≥ 96 GB 的遠端 Mac 節點(建議 M3/M4/M5 Max,磁碟 ≥ 1 TB 以放權重與 KV 快取);下單後留意簡訊/郵件中的 VNC 與 SSH 憑證。
VNC 首登 ★:用本機 VNC Viewer 連上節點,第一次進入桌面會觸發「請允許此電腦被螢幕共享存取」類彈窗——SSH 階段無法點確認,必須在圖形會話裡同意。
Clone 與編譯 ds4:打開終端機執行 git clone https://github.com/antirez/ds4 && cd ds4 && make;ds4 僅依賴系統 Clang 與 Metal SDK,正常情況下 1–3 分鐘完成。
下載權重 ★:從 DeepSeek 官方或鏡像下載 V4 Flash q2 權重(約 90 GB);首次寫入新目錄會觸發磁碟可寫權限與「請允許下載的應用程式存取該資料夾」類彈窗,SSH 通道裡同樣靜默失敗,必須在 VNC 桌面手動點「允許」。
首次啟動與 Metal 授權 ★:執行 ./ds4 --model deepseek-v4-flash-q2.gguf --port 18080;首次呼叫 Metal API 時 macOS 會彈出 GPU 存取授權 與可能的 SIP / Gatekeeper 提示,必須在 VNC 桌面點「允許」並按需在系統設定中加白名單。
KV 快取目錄核對:用 Finder 進入 ~/.ds4/cache 查看快取檔案大小是否隨會話增長;如果一直為 0,多半是上一步授權未通過或目錄在唯讀卷上。
對接 Cursor / opencode:在用戶端把 base_url 指向 http://<遠端 Mac IP>:18080/v1、模型名填 deepseek-v4-flash;ds4 實作 OpenAI 相容協議,第一句對話就能驗證 Tool Calling 與 SSE 串流輸出是否正常。
跑完即停:驗證完畢後回到 VNCMac 控制台「停機/釋放節點」;按小時計費的遠端 Mac 一旦釋放,帳單立刻停止,無需擔心明天「忘了關」繼續燒錢。
很多初次部署者會問「能不能純 SSH 跳過 VNC 一次性把這套自動化掉?」答案是日常呼叫可以,首次安裝與授權不行——這正是租用 VNCMac 帶 VNC 圖形會話的遠端 Mac 比純 SSH 雲主機更省事的本質原因。下面是一張三欄表,便於你把 VNC 不可替代的步驟一次列清。
| 核對項 | SSH 是否夠 | VNC 必須做什麼 |
|---|---|---|
| VNC / 螢幕共享首次授權 | 否 | 桌面右上系統彈窗點「允許」 |
| 下載權重的目錄可寫授權 | 否 | 系統設定 → 隱私與安全性 → 檔案與資料夾 |
| Metal GPU 首次呼叫授權 | 否 | 桌面彈窗確認 + 必要時 SIP 加白 |
| KV 快取目錄可讀寫核對 | 勉強(看 ls) | Finder 直觀看到大小是否隨會話增長 |
| 日常推論呼叫 / Cursor 接入 | 是 | VNC 僅用於第一次設定後排錯 |
注意:把「Metal 授權彈窗」當作 ds4 本身的 bug 是最常見的歸因錯誤;多數情況下只是 SSH 看不見彈窗、點不了「允許」,開 VNC 桌面一次性點完即可。
下列部落格與「跑前沿大模型 + 租用遠端 Mac」主線高度相關,建議與本文配合閱讀,把推論側與你的日常 iOS / Agent 工作流並入同一台租用節點統籌。
AI 算力租賃的「GPU 一段」與 Mac 一段如何分工。
閱讀 →Agent 配小模型做嵌入,與 ds4 全量推論形成互補。
閱讀 →跨境呼叫 DeepSeek / Anthropic 等 API 時的 Proxy 與白名單。
閱讀 →ds4 不是通用 GGUF 載入器,而是 antirez 針對 DeepSeek V4 Flash / PRO 單一模型族手寫的 C 推論引擎,只優化 Metal 後端與 KV 快取落盤,因此在 Mac 上跑同一模型常比通用框架快不少,但不適合替代你日常的 llama.cpp 或 MLX 用途。
在 96 GB 統一記憶體的 M3/M4/M5 Max 上跑 Flash q2 量化版能進入「能用」區間,prefill 與生成都明顯高於同價位 PC 方案;但長上下文與多視窗共用時仍要留出系統與 Xcode 等工具的記憶體餘量,否則觸發 swap 把吞吐拖低。
若全年開機使用率低於約 30%,512 GB 起步 Mac Studio Ultra 的折舊、電費與機房噪音往往跑不平帳;按小時或按月租用 VNCMac 高記憶體 Mac 節點更貼合「按需推論」的現金流,詳見第四節 TCO 表。
日常推論呼叫確實能走 SSH 與 OpenAI 相容 API;但首次安裝階段的 Gatekeeper、Metal 驅動授權彈窗、磁碟可寫權限、KV 快取目錄核對等步驟仍然必須在 VNC 圖形會話裡點確認,只開 SSH 會卡在靜默失敗,詳見第五節三欄表。
antirez 用 ds4 把跑前沿大模型的門檻從「雲端商 + 萬元 GPU」拉回到「一台 Mac + 一個執行檔」;但他也無意解決「96 GB 起步統一記憶體 Mac 賣到十幾萬起、512 GB 頂規 Mac Studio 賣到近五十萬起」這條真正的硬體鴻溝。對絕大多數獨立開發者、研究者、技術部落客與小團隊而言,「我想跑 DeepSeek V4」與「我能跑 DeepSeek V4」之間,差的不是軟體能力,而是一次性付掉幾十萬的現金流。
自購的隱性短板還不止於此——UMA 焊死記憶體意味著買定離手、永遠不能升級;機房噪音與電費在家庭場景是真實的體感負擔;三年後想換 PRO q4 會發現現在這台機器只能當二手賣掉。若你的使用畫像是「評估期 + 專案制 + 偶發推論」,那這三年加在一起的折舊很可能遠高於按小時租用 VNCMac 的總帳單。
這正是 VNCMac 遠端 Mac 租賃在 ds4 時代的意義:把曾經只屬於「咬牙買 Mac Studio Ultra」少數人的頂規本機推論環境,變成任何人都能按小時或按月使用的基礎設施;推論資料全程在你的專屬節點內,不經第三方 API,隱私可控;用完即停,帳單透明。下方主按鈕進入繁中站購買頁,先開一台 96 GB 起步節點跑通 ds4 + DeepSeek V4 Flash,再決定要不要把 Mac Studio Ultra 搬回家;需要對比節點配置與套餐時,先瀏覽首頁即可。