ИИ-вычисления 26 мая 2026 г. 16 мин чтения antirez ds4 DeepSeek V4 удалённый Mac VNC

ds4 переносит DeepSeek V4 локально на Mac в 2026
Стена 96 ГБ и решение об аренде Mac

DwarfStar · приоритет Metal · единая память · расчёт TCO · VNC-ранбук 60 мин

antirez ds4 запускает DeepSeek V4 локально на Mac Apple Silicon

В мае 2026 года создатель Redis antirez выпустил ds4 (DwarfStar) — движок вывода на чистом C, специально разработанный для DeepSeek V4 Flash и PRO. За неделю проект перешагнул 11 000 GitHub-звёзд и впервые дал убедительный ответ на вопрос, как запускать фронтирную модель локально на Mac Apple Silicon в производственном качестве. Подводный камень — железо: входные билеты составляют 96 ГБ, 256 ГБ или 512 ГБ единой памяти, и это оставляет большинство независимых разработчиков, исследователей ИИ и техноблогеров за бортом. В этой статье — трезвая таблица характеристик и аппаратного порога, структурное преимущество архитектуры единой памяти (UMA) над потребительским HBM NVIDIA, одностраничный расчёт TCO «купить vs арендовать» и 60-минутный VNC-ранбук на арендованном узле VNCMac, доводящий ds4 + DeepSeek V4 Flash от git clone до рабочей OpenAI-совместимой конечной точки. Перекрёстные ссылки на рекордный бэклог CoreWeave, OpenClaw + Ollama-эмбеддинги и исходящий прокси OpenClaw позволяют свести фронтирный вывод и ежедневную работу iOS / агента на одном арендованном узле.

01

Почему ds4 за неделю набрал 11k звёзд

То, что ds4 буквально через несколько дней после релиза окрестили «лучшим локальным движком для DeepSeek V4 на Mac», — не случайность. antirez — это не просто автор open source: он создатель Redis и один из немногих C-инженеров, которые превратили минимум кода, делающего максимум, в эстетику. С ds4 он перенёс эту эстетику в LLM-вывод: ни Python, ни сторонних рантаймов, ни скрытой магии. Пять архитектурных решений объясняют звёздность.

  1. 01

    Чистый C, никаких сторонних inference-стэков. Репозиторий собирается простым make. На выходе — единственный бинарь. Никакого интерпретатора Python, никакого CUDA toolchain, никакой стены pip-зависимостей: первый запуск сокращается с часов до минут.

  2. 02

    Metal first. Глубокая адаптация под GPU Apple Silicon. На MacBook Pro M5 Max проект демонстрирует 463 t/s prefill и 34 t/s генерации — числа, превосходящие большинство ценово сопоставимых PC-сборок с потребительской NVIDIA в реальной практике.

  3. 03

    Контекст в миллион токенов. ds4 поддерживает окно 1M токенов в паре с агрессивно сжатым KV-кэшем DeepSeek V4. Длинные документы и многоходовые сессии кодинга перестают быть «перечитыванием с нуля каждый раз».

  4. 04

    Постоянный KV-кэш на диске. KV-кэш сериализуется на быстрый NVMe SSD Mac. Сессии возобновляются за секунды через сон и перезапуск, что естественно ложится на реальный рабочий ритм пользователя Mac.

  5. 05

    2-битная квантизация и встроенный агент. Жёстко квантизируются только маршрутные эксперты, остальные слои сохраняют точность — благодаря этому Flash помещается в 128 ГБ-машину. Tool Calling нативный, API совместим с OpenAI и Anthropic; Cursor и opencode общаются с ds4 без посредников.

Политический вес этого дизайна больше, чем сами цифры throughput. ds4 возвращает онрамп фронтирного вывода с «облачного аккаунта плюс пятизначной GPU» к «Mac плюс один бинарь». И одновременно произносит жёсткое: настоящий барьер в 2026 году — больше не софт, а цена железа. Раздел 02 кладёт на это числа.

02

Реальная аппаратная стена DeepSeek V4 + ds4

Цифры производительности ds4 красивы, но для большинства читателей решающее значение имеет следующая таблица: какая квантизация, какой Mac, сколько денег. Цены — это эталонные значения российского рынка за май 2026 года; рассматривайте их как порядки величин, а не как коммерческие предложения.

МодельМин. единая памятьТипичный Mac (2026)Цена-ориентир (RUB)Типичные сценарии
DeepSeek V4 Flash · q296 ГБMacBook Pro M3/M4/M5 Max (96 ГБ UMA)от 380 000 ₽Личный копилот, документ-Q&A, исследования
DeepSeek V4 Flash · q4256 ГБMac Studio M3/M4 Ultra (256 ГБ UMA)от 770 000 ₽Стабильный вывод, инженерный Q&A с длинным контекстом
DeepSeek V4 PRO · q2512 ГБMac Studio M3 Ultra топовый (512 ГБ UMA)от 1 400 000 ₽Локальный агент, публичный API, внутренние агенты
DeepSeek V4 PRO · q41 ТБ+Нет потребительской единой машины. Требуется мульти-нода или серверный класс.Исследовательские команды, платформенное обслуживание

Три детали, которые часто проглядывают. Первое: 96 ГБ — нижняя граница, чтобы запустить Flash q2, а не граница, чтобы запустить с комфортом. Если параллельно открыты Xcode, Chrome и пара Slack-воркспейсов, оставьте 20–30 ГБ буфера под macOS — иначе во время вывода включится swap и prefill упадёт вдвое. Второе: q4 стабильнее q2, но память и дисковый KV-след растут практически линейно; экономически разумно сначала проверять нагрузку на q2. Третье: для PRO q4 сегодня не существует потребительской машины, способной запускать модель в одиночку. Платформенное обслуживание по-прежнему — задача мульти-нод или серверного класса.

Сначала проверьте реальную нагрузку на q2, а потом решайте про 256 ГБ или 512 ГБ. Сначала запуск — потом покупка.

03

Почему именно Mac: UMA против потребительского HBM NVIDIA

ds4 явно объявляет Metal «первичной целью», и это не из любви к эстетике macOS. То, на что реально делает ставку antirez, — архитектура единой памяти (UMA, Unified Memory Architecture) Apple Silicon. На потребительском сегменте у UMA есть структурные преимущества, которые NVIDIA не может воспроизвести.

  1. 01

    CPU и GPU делят общий пул. SoC M3, M4 и M5 паяют 96–512 ГБ прямо в корпус. Веса модели не нужно копировать между CPU RAM и GPU VRAM, что убирает PCIe-передачи и целый класс OOM-сбоев.

  2. 02

    Потолок потребительского NVIDIA VRAM. Современные потребительские NVIDIA-карты упираются в 24–32 ГБ VRAM. Чтобы уложить ~90 ГБ весов Flash q2, нужны multi-GPU или CPU-offload, оба съедают значимую долю throughput на PCIe и обмен между картами.

  3. 03

    Высокая пропускная способность при низком потреблении. Пропускная способность памяти M4 и M5 Max близка к HBM, а всё устройство потребляет десятки ватт. Хватает бытовой розетки. GPU-сервер с эквивалентной памятью требует отдельной PDU и стоечного охлаждения.

  4. 04

    Естественное соответствие SSD-кэшу KV. Последовательные чтения NVMe в macOS часто превышают 5 ГБ/с, и дисковый KV-кэш ds4 возвращает сессию за секунды. На Linux + PCIe SSD это реализуемо, но mmap, блокировки и углы планировщика придётся обслуживать самостоятельно.

  5. 05

    Цена расплаты. UMA паяет память в SoC навсегда. Купил — не нарастишь. 128-гигабайтный MacBook Pro никогда не станет 256-гигабайтным. Именно поэтому в 2026 году «сначала арендуйте, при необходимости купите» — особенно рациональный сценарий. Раздел 04 кладёт на это числа.

Иначе говоря: «почему именно Mac» — не маркетинговая фраза, а аппаратное наблюдение. В потребительском сегменте только Apple Silicon ставит 96 ГБ и больше реальной разделяемой памяти в одну машину. На уровне дата-центра NVIDIA H200 и B100 остаются неоспоримыми чемпионами обучения; но чтобы привести вывод к уровню «один человек, один кошелёк», Mac — единственная потребительская платформа, под которую инженеры серьёзно портируют. Поэтому ds4 с самого начала отказывается от «кросс-платформенности» и сосредотачивается на Metal.

04

Купить или арендовать: TCO и точка безубыточности

Таблица ниже сводит вопрос «купить vs арендовать» к одному измерению — совокупным расходам первого года, чтобы вы могли обсудить его с командой за пять минут. Числа — это эталонные значения российского рынка за май 2026 г. в рублях; замените их вашими реальными ценами и тарифами на электричество.

ВариантНачальные затратыГодовые скрытые расходыИтог 1-го года (лёгкая нагрузка)Окупаемость / профиль
Покупка MacBook Pro M5 Max 96 ГБот 380 000 ₽Электричество, амортизация, нет апгрейда 30–50 тыс. ₽~ 420 000 ₽3+ часа в день, горизонт 3 года
Покупка Mac Studio Ultra 256 ГБот 770 000 ₽Электричество, шум, амортизация 60–100 тыс. ₽~ 850 000 ₽Командное использование, ежедневный тяжёлый вывод
Покупка Mac Studio Ultra 512 ГБ топот 1 400 000 ₽Электричество, обслуживание, амортизация 100–150 тыс. ₽~ 1 530 000 ₽Публичный API, исследовательские нагрузки
Аренда удалённого Mac VNCMac 96 ГБ+ (помесячно)0 ₽Фикс. ежемесячная плата × активные месяцыЧасто 1/3–1/5 от покупкиПроектная работа, эпизодический вывод, оценка
Аренда узла VNCMac с большой памятью (почасово)0 ₽Остановка = биллинг остановлен, нет idle-расходовСамая низкая (только активные часы)Короткая оценка, разовый PoC, запись демо

Правильное чтение этой таблицы — не «какая строка дешевле всего», а разместить на ней свой профиль. Если вы реально выводите 3 часа в день, каждый день, на горизонте трёх лет — MacBook Pro 96 ГБ окупится к третьему году. Если же честный портрет — «оценить ds4 несколько раз», «снять демо клиенту», «отследить пару релизов DeepSeek V4», то почасовая аренда даёт более мягкий денежный поток и снимает риск трёхлетней амортизации необновляемой машины. JSON ниже — мини-калькулятор для командного обсуждения.

json
{
  "scenario": "ds4_deepseek_v4_flash_q2",
  "daily_active_hours": 2.0,
  "active_days_per_year": 180,
  "owned_total_year_one_rub": 420000,
  "rental_hourly_rate_rub": 100,
  "rental_year_one_rub": "daily_active_hours * active_days_per_year * rental_hourly_rate_rub",
  "break_even_years": "owned_total_year_one_rub / rental_year_one_rub"
}
i

Подсказка: подставьте свои пять чисел. Оценочные проекты, фрилансеры и небольшие команды чаще всего попадают в break_even_years > 3 — именно тот случай, когда «сначала арендуйте» — самое сильное решение.

Два расхода, которые редко попадают в таблицу: электричество и шум кулера. Полностью загруженный Mac Studio Ultra потребляет 200–300 Вт. В режиме 24×7 это заметная прибавка к счёту, а шум вентилятора в домашнем или коэргономично-арендованном офисе превращается в реальную эргономическую нагрузку. Передача этой части ощущаемой стоимости в дата-центр — одна из самых недооценённых причин, почему фрилансеры в итоге арендуют.

05

60-минутный VNC-ранбук на арендованном узле VNCMac

Разделы 3 и 4 решают вопрос «покупать ли». Этот раздел даёт кратчайший копируемый путь: от заказа узла VNCMac с большой памятью до диалога с DeepSeek V4 Flash в браузере — цель меньше 60 минут. Шаги со звёздочкой — те, где сессия SSH беззвучно зависает и нужна именно графическая сессия VNC.

  1. 01

    Выберите узел. На странице тарифов выберите удалённый Mac с памятью не менее 96 ГБ, идеально M3, M4 или M5 Max, с SSD не менее 1 ТБ. Сохраните полученные по почте учётные данные VNC и SSH.

  2. 02

    Первый вход по VNC (★). Подключитесь локальным VNC-вьюером. При первом входе на рабочий стол появятся диалоги типа «разрешить этому компьютеру наблюдение». SSH их не нажмёт; согласие даёт только графическая сессия.

  3. 03

    Клонируйте и соберите ds4. В терминале выполните git clone https://github.com/antirez/ds4 && cd ds4 && make. ds4 зависит только от системного Clang и SDK Metal; сборка обычно занимает 1–3 минуты.

  4. 04

    Скачайте веса (★). Возьмите веса DeepSeek V4 Flash q2 (около 90 ГБ) с официального источника или зеркала. Первые записи в новый каталог вызовут диалог прав на запись на диск и подсказку «разрешить ли скачанным приложениям доступ к этой папке», на которые SSH ответить не может.

  5. 05

    Первый запуск и авторизация Metal (★). Запустите ./ds4 --model deepseek-v4-flash-q2.gguf --port 18080. Первый вызов Metal вызовет запрос на доступ к GPU и, возможно, предупреждение Gatekeeper или SIP. Подтвердите в VNC-сессии и при необходимости добавьте бинарь в разрешённый список в системных настройках.

  6. 06

    Проверка KV-кэша. В Finder откройте ~/.ds4/cache и убедитесь, что файлы кэша растут с каждой сессией. Если каталог остаётся пустым — скорее всего, авторизация не прошла или каталог на томе только для чтения.

  7. 07

    Подключите Cursor или opencode. В клиенте укажите base URL http://<удалённый-mac-ip>:18080/v1 и имя модели deepseek-v4-flash. ds4 реализует OpenAI-совместимый протокол, первая же реплика проверит Tool Calling и потоковую передачу SSE.

  8. 08

    Остановите по окончании. В консоли VNCMac «освободите» узел. Почасовой биллинг останавливается мгновенно, никаких сюрпризов «забыл выключить завтра».

Частый вопрос: можно ли всё это автоматизировать через SSH? Честный ответ: повседневные вызовы — да, первичная авторизация — нет. Именно эта разница делает удалённый Mac с настоящей графической сессией практичнее, чем SSH-only облачная VM. Трёхколоночная таблица ниже — для копирования прямо в шаблон ранбука.

Контрольная точкаSSH достаточно?Что должен сделать VNC
Первичная авторизация общего экранаНетНажать «Разрешить» в системном диалоге
Право на запись в папку весовНетСистемные настройки → Конфиденциальность → Файлы и папки
Первый вызов Metal GPUНетПодтвердить диалог, при необходимости SIP-allowlist
Проверка каталога KV-кэшаЧастично (ls)Finder наглядно показывает рост размера
Повседневный вывод и CursorДаVNC — только на случай сбоя
!

Внимание: приписывать диалог авторизации Metal к багам ds4 — самая частая ошибка диагностики. Чаще всего SSH просто не видит окно, а одно нажатие в VNC решает задачу.

Дополнительное чтение

Тексты в паре с этим материалом

Статьи ниже идут по той же оси «фронтирный вывод модели плюс арендованный Mac». Читайте их вместе, чтобы свести вывод и ежедневную работу iOS / агента на одном арендованном узле.

FAQ

Частые вопросы

ds4 — не универсальный GGUF-загрузчик, а движок на чистом C, написанный antirez специально под DeepSeek V4 Flash и PRO. Оптимизированы только Metal-бэкенд и дисковый KV-кэш. На Mac он часто опережает универсальные фреймворки для этого семейства моделей, но не претендует на замену llama.cpp или MLX в повседневных задачах.

На M3, M4 или M5 Max с 96 ГБ единой памяти Flash q2 попадает в зону «пригодно к работе», prefill и генерация заметно быстрее, чем на PC того же ценового сегмента. Однако оставьте 20–30 ГБ запаса для macOS, Xcode и браузеров, иначе swap уронит пропускную способность.

Если ваша годовая загрузка ниже примерно 30 %, амортизация, электричество и шум Mac Studio Ultra 512 ГБ редко окупаются. Почасовая или помесячная аренда узла VNCMac с большой памятью ближе к денежному потоку on-demand-вывода. Расчёт — в разделе 4.

Повседневные вызовы вывода идут через SSH и OpenAI-совместимый API. Но первичная установка — Gatekeeper, авторизация драйвера Metal, права на запись на диск, проверка каталога KV-кэша — требует настоящей графической сессии. Только SSH тихо застревает на этих диалогах. См. трёхколоночную таблицу в разделе 5.

Заключение

С ds4 antirez вернул онрамп фронтирного вывода с «облачного аккаунта плюс пятизначной GPU» к «Mac плюс один бинарь». Более трудной задачи он сознательно не решал: 96-гигабайтный Mac начинается с шестизначных рублей, а топовый Mac Studio Ultra 512 ГБ — с семизначных. Для большинства независимых разработчиков, исследователей, техноблогеров и небольших команд разрыв между «хочу запустить DeepSeek V4» и «могу запустить DeepSeek V4» — не разрыв в софте, а разрыв в денежном потоке.

У владения свои скрытые издержки. UMA паяет память в SoC — купил, не нарастишь. Шум вентилятора и счёт за электричество — реальные эргономические нагрузки дома. Через три года ваша машина будет стоить только своей вторичной цены ровно в момент, когда вы захотите переехать на PRO q4. Если честный портрет — оценка, проектная работа, эпизодический вывод, то трёхлетняя амортизация часто превышает то, во что обошлась бы почасовая аренда VNCMac.

Именно в этом смысл аренды удалённого Mac в VNCMac в эпоху ds4: превратить «топовый локальный окружение для вывода», ранее доступное только тем, кто мог позволить себе купить Mac Studio Ultra, в инфраструктуру, которую любой может арендовать на час или месяц. Данные вывода остаются в вашем выделенном узле, без сторонних API в цепочке, биллинг останавливается, когда вы останавливаете машину. Главная кнопка ниже ведёт на русскоязычную страницу тарифов; запустите узел класса 96 ГБ, пройдите ранбук из раздела 5, и если после этого вы всё-таки захотите Mac Studio Ultra под столом, решение будет принято на цифрах. Конфигурации и тарифы — на главной странице.