DwarfStar · приоритет Metal · единая память · расчёт TCO · VNC-ранбук 60 мин
В мае 2026 года создатель Redis antirez выпустил ds4 (DwarfStar) — движок вывода на чистом C, специально разработанный для DeepSeek V4 Flash и PRO. За неделю проект перешагнул 11 000 GitHub-звёзд и впервые дал убедительный ответ на вопрос, как запускать фронтирную модель локально на Mac Apple Silicon в производственном качестве. Подводный камень — железо: входные билеты составляют 96 ГБ, 256 ГБ или 512 ГБ единой памяти, и это оставляет большинство независимых разработчиков, исследователей ИИ и техноблогеров за бортом. В этой статье — трезвая таблица характеристик и аппаратного порога, структурное преимущество архитектуры единой памяти (UMA) над потребительским HBM NVIDIA, одностраничный расчёт TCO «купить vs арендовать» и 60-минутный VNC-ранбук на арендованном узле VNCMac, доводящий ds4 + DeepSeek V4 Flash от git clone до рабочей OpenAI-совместимой конечной точки. Перекрёстные ссылки на рекордный бэклог CoreWeave, OpenClaw + Ollama-эмбеддинги и исходящий прокси OpenClaw позволяют свести фронтирный вывод и ежедневную работу iOS / агента на одном арендованном узле.
То, что ds4 буквально через несколько дней после релиза окрестили «лучшим локальным движком для DeepSeek V4 на Mac», — не случайность. antirez — это не просто автор open source: он создатель Redis и один из немногих C-инженеров, которые превратили минимум кода, делающего максимум, в эстетику. С ds4 он перенёс эту эстетику в LLM-вывод: ни Python, ни сторонних рантаймов, ни скрытой магии. Пять архитектурных решений объясняют звёздность.
Чистый C, никаких сторонних inference-стэков. Репозиторий собирается простым make. На выходе — единственный бинарь. Никакого интерпретатора Python, никакого CUDA toolchain, никакой стены pip-зависимостей: первый запуск сокращается с часов до минут.
Metal first. Глубокая адаптация под GPU Apple Silicon. На MacBook Pro M5 Max проект демонстрирует 463 t/s prefill и 34 t/s генерации — числа, превосходящие большинство ценово сопоставимых PC-сборок с потребительской NVIDIA в реальной практике.
Контекст в миллион токенов. ds4 поддерживает окно 1M токенов в паре с агрессивно сжатым KV-кэшем DeepSeek V4. Длинные документы и многоходовые сессии кодинга перестают быть «перечитыванием с нуля каждый раз».
Постоянный KV-кэш на диске. KV-кэш сериализуется на быстрый NVMe SSD Mac. Сессии возобновляются за секунды через сон и перезапуск, что естественно ложится на реальный рабочий ритм пользователя Mac.
2-битная квантизация и встроенный агент. Жёстко квантизируются только маршрутные эксперты, остальные слои сохраняют точность — благодаря этому Flash помещается в 128 ГБ-машину. Tool Calling нативный, API совместим с OpenAI и Anthropic; Cursor и opencode общаются с ds4 без посредников.
Политический вес этого дизайна больше, чем сами цифры throughput. ds4 возвращает онрамп фронтирного вывода с «облачного аккаунта плюс пятизначной GPU» к «Mac плюс один бинарь». И одновременно произносит жёсткое: настоящий барьер в 2026 году — больше не софт, а цена железа. Раздел 02 кладёт на это числа.
Цифры производительности ds4 красивы, но для большинства читателей решающее значение имеет следующая таблица: какая квантизация, какой Mac, сколько денег. Цены — это эталонные значения российского рынка за май 2026 года; рассматривайте их как порядки величин, а не как коммерческие предложения.
| Модель | Мин. единая память | Типичный Mac (2026) | Цена-ориентир (RUB) | Типичные сценарии |
|---|---|---|---|---|
| DeepSeek V4 Flash · q2 | 96 ГБ | MacBook Pro M3/M4/M5 Max (96 ГБ UMA) | от 380 000 ₽ | Личный копилот, документ-Q&A, исследования |
| DeepSeek V4 Flash · q4 | 256 ГБ | Mac Studio M3/M4 Ultra (256 ГБ UMA) | от 770 000 ₽ | Стабильный вывод, инженерный Q&A с длинным контекстом |
| DeepSeek V4 PRO · q2 | 512 ГБ | Mac Studio M3 Ultra топовый (512 ГБ UMA) | от 1 400 000 ₽ | Локальный агент, публичный API, внутренние агенты |
| DeepSeek V4 PRO · q4 | 1 ТБ+ | Нет потребительской единой машины. Требуется мульти-нода или серверный класс. | — | Исследовательские команды, платформенное обслуживание |
Три детали, которые часто проглядывают. Первое: 96 ГБ — нижняя граница, чтобы запустить Flash q2, а не граница, чтобы запустить с комфортом. Если параллельно открыты Xcode, Chrome и пара Slack-воркспейсов, оставьте 20–30 ГБ буфера под macOS — иначе во время вывода включится swap и prefill упадёт вдвое. Второе: q4 стабильнее q2, но память и дисковый KV-след растут практически линейно; экономически разумно сначала проверять нагрузку на q2. Третье: для PRO q4 сегодня не существует потребительской машины, способной запускать модель в одиночку. Платформенное обслуживание по-прежнему — задача мульти-нод или серверного класса.
Сначала проверьте реальную нагрузку на q2, а потом решайте про 256 ГБ или 512 ГБ. Сначала запуск — потом покупка.
ds4 явно объявляет Metal «первичной целью», и это не из любви к эстетике macOS. То, на что реально делает ставку antirez, — архитектура единой памяти (UMA, Unified Memory Architecture) Apple Silicon. На потребительском сегменте у UMA есть структурные преимущества, которые NVIDIA не может воспроизвести.
CPU и GPU делят общий пул. SoC M3, M4 и M5 паяют 96–512 ГБ прямо в корпус. Веса модели не нужно копировать между CPU RAM и GPU VRAM, что убирает PCIe-передачи и целый класс OOM-сбоев.
Потолок потребительского NVIDIA VRAM. Современные потребительские NVIDIA-карты упираются в 24–32 ГБ VRAM. Чтобы уложить ~90 ГБ весов Flash q2, нужны multi-GPU или CPU-offload, оба съедают значимую долю throughput на PCIe и обмен между картами.
Высокая пропускная способность при низком потреблении. Пропускная способность памяти M4 и M5 Max близка к HBM, а всё устройство потребляет десятки ватт. Хватает бытовой розетки. GPU-сервер с эквивалентной памятью требует отдельной PDU и стоечного охлаждения.
Естественное соответствие SSD-кэшу KV. Последовательные чтения NVMe в macOS часто превышают 5 ГБ/с, и дисковый KV-кэш ds4 возвращает сессию за секунды. На Linux + PCIe SSD это реализуемо, но mmap, блокировки и углы планировщика придётся обслуживать самостоятельно.
Цена расплаты. UMA паяет память в SoC навсегда. Купил — не нарастишь. 128-гигабайтный MacBook Pro никогда не станет 256-гигабайтным. Именно поэтому в 2026 году «сначала арендуйте, при необходимости купите» — особенно рациональный сценарий. Раздел 04 кладёт на это числа.
Иначе говоря: «почему именно Mac» — не маркетинговая фраза, а аппаратное наблюдение. В потребительском сегменте только Apple Silicon ставит 96 ГБ и больше реальной разделяемой памяти в одну машину. На уровне дата-центра NVIDIA H200 и B100 остаются неоспоримыми чемпионами обучения; но чтобы привести вывод к уровню «один человек, один кошелёк», Mac — единственная потребительская платформа, под которую инженеры серьёзно портируют. Поэтому ds4 с самого начала отказывается от «кросс-платформенности» и сосредотачивается на Metal.
Таблица ниже сводит вопрос «купить vs арендовать» к одному измерению — совокупным расходам первого года, чтобы вы могли обсудить его с командой за пять минут. Числа — это эталонные значения российского рынка за май 2026 г. в рублях; замените их вашими реальными ценами и тарифами на электричество.
| Вариант | Начальные затраты | Годовые скрытые расходы | Итог 1-го года (лёгкая нагрузка) | Окупаемость / профиль |
|---|---|---|---|---|
| Покупка MacBook Pro M5 Max 96 ГБ | от 380 000 ₽ | Электричество, амортизация, нет апгрейда 30–50 тыс. ₽ | ~ 420 000 ₽ | 3+ часа в день, горизонт 3 года |
| Покупка Mac Studio Ultra 256 ГБ | от 770 000 ₽ | Электричество, шум, амортизация 60–100 тыс. ₽ | ~ 850 000 ₽ | Командное использование, ежедневный тяжёлый вывод |
| Покупка Mac Studio Ultra 512 ГБ топ | от 1 400 000 ₽ | Электричество, обслуживание, амортизация 100–150 тыс. ₽ | ~ 1 530 000 ₽ | Публичный API, исследовательские нагрузки |
| Аренда удалённого Mac VNCMac 96 ГБ+ (помесячно) | 0 ₽ | Фикс. ежемесячная плата × активные месяцы | Часто 1/3–1/5 от покупки | Проектная работа, эпизодический вывод, оценка |
| Аренда узла VNCMac с большой памятью (почасово) | 0 ₽ | Остановка = биллинг остановлен, нет idle-расходов | Самая низкая (только активные часы) | Короткая оценка, разовый PoC, запись демо |
Правильное чтение этой таблицы — не «какая строка дешевле всего», а разместить на ней свой профиль. Если вы реально выводите 3 часа в день, каждый день, на горизонте трёх лет — MacBook Pro 96 ГБ окупится к третьему году. Если же честный портрет — «оценить ds4 несколько раз», «снять демо клиенту», «отследить пару релизов DeepSeek V4», то почасовая аренда даёт более мягкий денежный поток и снимает риск трёхлетней амортизации необновляемой машины. JSON ниже — мини-калькулятор для командного обсуждения.
{
"scenario": "ds4_deepseek_v4_flash_q2",
"daily_active_hours": 2.0,
"active_days_per_year": 180,
"owned_total_year_one_rub": 420000,
"rental_hourly_rate_rub": 100,
"rental_year_one_rub": "daily_active_hours * active_days_per_year * rental_hourly_rate_rub",
"break_even_years": "owned_total_year_one_rub / rental_year_one_rub"
}
Подсказка: подставьте свои пять чисел. Оценочные проекты, фрилансеры и небольшие команды чаще всего попадают в break_even_years > 3 — именно тот случай, когда «сначала арендуйте» — самое сильное решение.
Два расхода, которые редко попадают в таблицу: электричество и шум кулера. Полностью загруженный Mac Studio Ultra потребляет 200–300 Вт. В режиме 24×7 это заметная прибавка к счёту, а шум вентилятора в домашнем или коэргономично-арендованном офисе превращается в реальную эргономическую нагрузку. Передача этой части ощущаемой стоимости в дата-центр — одна из самых недооценённых причин, почему фрилансеры в итоге арендуют.
Разделы 3 и 4 решают вопрос «покупать ли». Этот раздел даёт кратчайший копируемый путь: от заказа узла VNCMac с большой памятью до диалога с DeepSeek V4 Flash в браузере — цель меньше 60 минут. Шаги со звёздочкой — те, где сессия SSH беззвучно зависает и нужна именно графическая сессия VNC.
Выберите узел. На странице тарифов выберите удалённый Mac с памятью не менее 96 ГБ, идеально M3, M4 или M5 Max, с SSD не менее 1 ТБ. Сохраните полученные по почте учётные данные VNC и SSH.
Первый вход по VNC (★). Подключитесь локальным VNC-вьюером. При первом входе на рабочий стол появятся диалоги типа «разрешить этому компьютеру наблюдение». SSH их не нажмёт; согласие даёт только графическая сессия.
Клонируйте и соберите ds4. В терминале выполните git clone https://github.com/antirez/ds4 && cd ds4 && make. ds4 зависит только от системного Clang и SDK Metal; сборка обычно занимает 1–3 минуты.
Скачайте веса (★). Возьмите веса DeepSeek V4 Flash q2 (около 90 ГБ) с официального источника или зеркала. Первые записи в новый каталог вызовут диалог прав на запись на диск и подсказку «разрешить ли скачанным приложениям доступ к этой папке», на которые SSH ответить не может.
Первый запуск и авторизация Metal (★). Запустите ./ds4 --model deepseek-v4-flash-q2.gguf --port 18080. Первый вызов Metal вызовет запрос на доступ к GPU и, возможно, предупреждение Gatekeeper или SIP. Подтвердите в VNC-сессии и при необходимости добавьте бинарь в разрешённый список в системных настройках.
Проверка KV-кэша. В Finder откройте ~/.ds4/cache и убедитесь, что файлы кэша растут с каждой сессией. Если каталог остаётся пустым — скорее всего, авторизация не прошла или каталог на томе только для чтения.
Подключите Cursor или opencode. В клиенте укажите base URL http://<удалённый-mac-ip>:18080/v1 и имя модели deepseek-v4-flash. ds4 реализует OpenAI-совместимый протокол, первая же реплика проверит Tool Calling и потоковую передачу SSE.
Остановите по окончании. В консоли VNCMac «освободите» узел. Почасовой биллинг останавливается мгновенно, никаких сюрпризов «забыл выключить завтра».
Частый вопрос: можно ли всё это автоматизировать через SSH? Честный ответ: повседневные вызовы — да, первичная авторизация — нет. Именно эта разница делает удалённый Mac с настоящей графической сессией практичнее, чем SSH-only облачная VM. Трёхколоночная таблица ниже — для копирования прямо в шаблон ранбука.
| Контрольная точка | SSH достаточно? | Что должен сделать VNC |
|---|---|---|
| Первичная авторизация общего экрана | Нет | Нажать «Разрешить» в системном диалоге |
| Право на запись в папку весов | Нет | Системные настройки → Конфиденциальность → Файлы и папки |
| Первый вызов Metal GPU | Нет | Подтвердить диалог, при необходимости SIP-allowlist |
| Проверка каталога KV-кэша | Частично (ls) | Finder наглядно показывает рост размера |
| Повседневный вывод и Cursor | Да | VNC — только на случай сбоя |
Внимание: приписывать диалог авторизации Metal к багам ds4 — самая частая ошибка диагностики. Чаще всего SSH просто не видит окно, а одно нажатие в VNC решает задачу.
Статьи ниже идут по той же оси «фронтирный вывод модели плюс арендованный Mac». Читайте их вместе, чтобы свести вывод и ежедневную работу iOS / агента на одном арендованном узле.
Как GPU-половина compute-as-a-service отделяется от Mac-половины.
Читать →Малые модели на стороне агента в дополнение к полному выводу ds4.
Читать →Прокси и allowlist для трансграничных вызовов DeepSeek и Anthropic.
Читать →ds4 — не универсальный GGUF-загрузчик, а движок на чистом C, написанный antirez специально под DeepSeek V4 Flash и PRO. Оптимизированы только Metal-бэкенд и дисковый KV-кэш. На Mac он часто опережает универсальные фреймворки для этого семейства моделей, но не претендует на замену llama.cpp или MLX в повседневных задачах.
На M3, M4 или M5 Max с 96 ГБ единой памяти Flash q2 попадает в зону «пригодно к работе», prefill и генерация заметно быстрее, чем на PC того же ценового сегмента. Однако оставьте 20–30 ГБ запаса для macOS, Xcode и браузеров, иначе swap уронит пропускную способность.
Если ваша годовая загрузка ниже примерно 30 %, амортизация, электричество и шум Mac Studio Ultra 512 ГБ редко окупаются. Почасовая или помесячная аренда узла VNCMac с большой памятью ближе к денежному потоку on-demand-вывода. Расчёт — в разделе 4.
Повседневные вызовы вывода идут через SSH и OpenAI-совместимый API. Но первичная установка — Gatekeeper, авторизация драйвера Metal, права на запись на диск, проверка каталога KV-кэша — требует настоящей графической сессии. Только SSH тихо застревает на этих диалогах. См. трёхколоночную таблицу в разделе 5.
С ds4 antirez вернул онрамп фронтирного вывода с «облачного аккаунта плюс пятизначной GPU» к «Mac плюс один бинарь». Более трудной задачи он сознательно не решал: 96-гигабайтный Mac начинается с шестизначных рублей, а топовый Mac Studio Ultra 512 ГБ — с семизначных. Для большинства независимых разработчиков, исследователей, техноблогеров и небольших команд разрыв между «хочу запустить DeepSeek V4» и «могу запустить DeepSeek V4» — не разрыв в софте, а разрыв в денежном потоке.
У владения свои скрытые издержки. UMA паяет память в SoC — купил, не нарастишь. Шум вентилятора и счёт за электричество — реальные эргономические нагрузки дома. Через три года ваша машина будет стоить только своей вторичной цены ровно в момент, когда вы захотите переехать на PRO q4. Если честный портрет — оценка, проектная работа, эпизодический вывод, то трёхлетняя амортизация часто превышает то, во что обошлась бы почасовая аренда VNCMac.
Именно в этом смысл аренды удалённого Mac в VNCMac в эпоху ds4: превратить «топовый локальный окружение для вывода», ранее доступное только тем, кто мог позволить себе купить Mac Studio Ultra, в инфраструктуру, которую любой может арендовать на час или месяц. Данные вывода остаются в вашем выделенном узле, без сторонних API в цепочке, биллинг останавливается, когда вы останавливаете машину. Главная кнопка ниже ведёт на русскоязычную страницу тарифов; запустите узел класса 96 ГБ, пройдите ранбук из раздела 5, и если после этого вы всё-таки захотите Mac Studio Ultra под столом, решение будет принято на цифрах. Конфигурации и тарифы — на главной странице.