2026 ds4: DeepSeek V4 lokal auf Mac, 96GB-Wand & Miet-Mac

Q: Wie verhaelt sich ds4 zu llama.cpp oder MLX?

ds4 ist kein allgemeiner GGUF-Loader, sondern eine reine C-Engine, die antirez speziell fuer DeepSeek V4 Flash und PRO geschrieben hat. Sie optimiert ausschliesslich das Metal-Backend und den festplattenbasierten KV-Cache. Auf dem Mac ist sie fuer diese eine Modellfamilie typischerweise schneller als allgemeine Frameworks, soll aber llama.cpp oder MLX im Alltag nicht ersetzen.

Q: Lohnt sich ein 512GB Mac Studio bei nur gelegentlicher DeepSeek V4 PRO Nutzung?

Wenn Ihre jaehrliche aktive Nutzungsquote unter rund 30 Prozent liegt, amortisieren sich Abschreibung, Strom und Luefterlautstaerke eines 512GB Mac Studio Ultra selten. Stundenweise oder monatliche Miete eines VNCMac-Knotens mit hohem Arbeitsspeicher passt deutlich besser zu On-Demand-Inferenz.

01

Warum ds4 in einer Woche 11k Sterne erreichte

Dass ds4 schon Tage nach der Veroeffentlichung als „beste lokale Engine fuer DeepSeek V4 auf dem Mac“ gehandelt wurde, ist kein Zufall. antirez ist nicht irgendein Autor; er ist der Erfinder von Redis und einer der wenigen C-Ingenieure, die eine Aesthetik aus sehr wenig Code, der sehr schnelle Dinge tut, gemacht haben. Mit ds4 hat er diese Aesthetik in die LLM-Inferenz uebertragen: kein Python, keine Drittlaufzeitumgebung, keine versteckte Magie. Fuenf Design-Entscheidungen erklaeren die Sternzahl.

01
Reines C, kein Drittanbieter-Inferenzstack. Das Repository baut mit einem schlichten make. Das Ergebnis ist eine einzige Binaerdatei. Kein Python, kein CUDA, keine pip-Abhaengigkeitswand. Die erste Inbetriebnahme schrumpft von Stunden auf Minuten.
02
Metal first. Tiefgehende Anpassung an Apple-Silicon-GPUs. Auf einem MacBook Pro M5 Max meldet das Projekt 463 t/s Prefill und 34 t/s Generierung, Zahlen, die preisgleiche PC-Setups mit Consumer-NVIDIA in der gemessenen Praxis klar uebertreffen.
03
Eine Million Token Kontext. ds4 unterstuetzt ein 1M-Token-Kontextfenster, kombiniert mit dem aggressiv komprimierten KV-Cache von DeepSeek V4. Lange Dokumente und mehrstuendige Coding-Sessions hoeren auf, „jedes Mal neu eingelesen“ zu werden.
04
Persistenter KV-Cache auf Disk. Der KV-Cache wird auf die schnelle NVMe-SSD des Macs serialisiert. Sessions setzen ueber Schlaf und Neustart hinweg in Sekunden fort, was zur tatsaechlichen Mac-Arbeitsweise „Deckel zu, weiter morgen“ passt.
05
2-Bit-Quantisierung und integrierter Agent. Nur Routing-Experten werden hart quantisiert, der Rest behaelt Praezision. Damit passt Flash in eine 128GB-Maschine. Tool Calling ist nativ, die API ist OpenAI- und Anthropic-kompatibel, Cursor oder opencode sprechen ohne Umwege mit ds4.

Die politische Tragweite dieses Designs ist groesser als die reine Throughput-Zahl. ds4 holt die Onramp fuer Frontier-Inferenz von „Cloud-Account plus fuenfstellige GPU“ zurueck zu „ein MacBook plus eine Binaer“. Es formuliert zugleich eine unbequemere Erkenntnis: Die echte Huerde liegt 2026 nicht mehr in der Software, sondern in der Hardware. Abschnitt 02 versieht das mit Zahlen.

02

Die echte DeepSeek-V4-plus-ds4-Hardware-Wand

Die Leistungszahlen von ds4 sind huebsch, doch fuer die meisten Leserinnen und Leser ist die folgende Tabelle entscheidend: welche Quantisierung, welcher Mac, wie viel Geld. Die Preise sind Referenzwerte des deutschsprachigen Marktes von Mai 2026 und sollten als Groessenordnungen verstanden werden, nicht als Angebote.

Modell	Minimaler Unified Memory	Typischer Mac (2026)	Referenzpreis (EUR)	Typische Nutzung
DeepSeek V4 Flash · q2	96 GB	MacBook Pro M3/M4/M5 Max (96 GB UMA)	ab 4.000 EUR	Persoenlicher Coding-Copilot, Dok-QA, Forschung
DeepSeek V4 Flash · q4	256 GB	Mac Studio M3/M4 Ultra (256 GB UMA)	ab 8.000 EUR	Stabile Ausgabe, Engineering-QA mit langem Kontext
DeepSeek V4 PRO · q2	512 GB	Mac Studio M3 Ultra Top-Spec (512 GB UMA)	ab 14.500 EUR	Lokaler Agent, oeffentliche API, hauseigene Agents
DeepSeek V4 PRO · q4	1 TB+	Keine Einzel-Consumer-Maschine. Multi-Node oder Server-Klasse erforderlich.	—	Forschungsteams, plattformweites Serving

Einige Details, die in Verkaufsfolien gerne untergehen: Erstens ist 96 GB die Untergrenze, um Flash q2 ueberhaupt laufen zu lassen, nicht die Untergrenze, um es komfortabel zu betreiben. Wenn Xcode, Chrome und ein paar Slack-Workspaces gleichzeitig offen sind, planen Sie 20 bis 30 GB Reserve fuer macOS ein, sonst kippt der Durchsatz mitten in der Inferenz, weil Swap einsetzt. Zweitens ist q4 stabiler als q2, doch Speicher- und Disk-KV-Footprint skalieren ungefaehr linear; es lohnt sich, mit q2 zu validieren, bevor man q4 bezahlt. Drittens existiert fuer PRO q4 heute keine Consumer-Einzelmaschine, die das Modell allein traegt. Plattformweites Serving bleibt eine Multi-Node- oder Server-Klassen-Disziplin.

Erst mit q2 produktive Last validieren, dann ueber 256 GB oder 512 GB entscheiden. Erst laufen lassen, dann kaufen.

03

Warum es ein Mac sein muss: UMA gegen NVIDIA HBM im Consumer-Segment

ds4 nennt das Metal-Backend ausdruecklich das „Primaerziel“, und das hat nichts mit Geschmack zu tun. Was antirez wirklich abdeckt, ist die Unified Memory Architecture (UMA) in Apple Silicon. Im Consumer-Segment hat UMA bei grossen Modellen strukturelle Vorteile, die NVIDIA nicht replizieren kann.

01
CPU und GPU teilen einen grossen Pool. M3, M4 und M5 verloeten 96 bis 512 GB direkt im SoC-Paket. Modellgewichte muessen nicht zwischen CPU-RAM und GPU-VRAM kopiert werden, was den PCIe-Transfer und eine ganze Klasse von OOM-Fehlern eliminiert.
02
Consumer-NVIDIA-VRAM-Decke. Aktuelle Consumer-NVIDIA-Karten bleiben bei rund 24 bis 32 GB VRAM. 90 GB Flash-q2-Gewichte erfordern Multi-GPU oder CPU-Offload, beides nimmt einen grossen Teil des Durchsatzes durch PCIe und Inter-GPU-Kommunikation wieder mit.
03
Hohe Bandbreite, niedrige Leistung. Die Speicherbandbreite des M4 und M5 Max liegt nahe an HBM-Werten, waehrend die gesamte Maschine nur einige Dutzend Watt zieht. Eine Haushaltsleitung treibt sie. Ein GPU-Server mit aehnlichem Speicher braucht eine dedizierte PDU und Rack-Kuehlung.
04
Nativer Fit mit dem SSD-KV-Cache. macOS NVMe-Lesegeschwindigkeiten ueberschreiten oft 5 GB/s, und der Disk-KV-Cache von ds4 erweckt die naechste Session in Sekunden zum Leben. Auf Linux ist das machbar, aber Sie pflegen mmap, Locking und Scheduler-Ecken selbst.
05
Der Preis, den Sie zahlen. UMA verloetet RAM dauerhaft im SoC. Einmal gekauft, nie aufruestbar. Ein 128GB MacBook Pro wird nie zu einem 256GB. Genau deshalb ist „erst mieten, dann eventuell kaufen“ 2026 ungewoehnlich rational. Abschnitt 04 untermauert das mit Zahlen.

Anders gesagt: „Warum muss es ein Mac sein“ ist keine Marketing-Phrase, sondern eine Hardware-Beobachtung. Im Consumer-Segment liefert nur Apple Silicon 96 GB und mehr echten geteilten Speicher in einer einzigen Maschine. Im Rechenzentrumsmassstab bleiben NVIDIA H200 und B100 fraglos die Trainingsplattform. Wer Inferenz aber auf eine Person und einen Geldbeutel herunterbrechen will, findet aktuell nur den Mac als Consumer-Plattform, fuer die Ingenieurinnen und Ingenieure ernsthaft portieren. Deshalb verzichtet ds4 von Anfang an auf den Anspruch „Cross-Platform“ und konzentriert sich auf Metal.

04

Kaufen oder mieten: TCO und Break-Even

Die folgende Tabelle reduziert die Kauf-vs.-Miet-Frage auf eine Dimension, Gesamtkosten im ersten Jahr, sodass Sie die Diskussion mit dem Team in fuenf Minuten fuehren koennen. Zahlen sind Referenzwerte fuer den DACH-Raum im Mai 2026 in Euro; bitte mit Ihren tatsaechlichen Angeboten und Stromtarifen ersetzen.

Option	Initial	Jaehrliche versteckte Kosten	Jahr 1 gesamt (leichte Last)	Break-Even / Profil
Kauf MacBook Pro M5 Max 96GB	ab 4.000 EUR	Strom, Abschreibung, kein Upgrade-Pfad 400–600 EUR	~ 4.600 EUR	3 Std+ pro Tag, 3-Jahres-Horizont
Kauf Mac Studio Ultra 256GB	ab 8.000 EUR	Strom, Luefterlaerm, Abschreibung 700–1.100 EUR	~ 9.000 EUR	Team-Sharing, taegliche schwere Inferenz
Kauf Mac Studio Ultra 512GB Top-Spec	ab 14.500 EUR	Strom, Wartung, Abschreibung 1.100–1.700 EUR	~ 16.000 EUR	Oeffentliche API, Forschungslast
VNCMac 96GB+ Remote-Mac mieten (monatlich)	0 EUR	Fixe Monatsgebuehr nur fuer aktive Monate	Oft 1/3 bis 1/5 des Kaufs	Projektbasiert, gelegentliche Inferenz, Evaluierung
VNCMac High-Memory-Knoten mieten (stuendlich)	0 EUR	Stop bedeutet Stop, keine Leerlaufkosten	Am niedrigsten, nur aktive Stunden	Kurzevaluation, einmaliger PoC, Demo-Aufnahme

Die richtige Leseweise ist nicht „die billigste Zeile gewinnt“, sondern Ihr eigenes Profil zu verorten. Wer wirklich drei Stunden taeglich, drei Jahre lang Inferenz fahren wird, amortisiert ein 96GB MacBook Pro im dritten Jahr. Wer ehrlicher von „ds4 ein paar Mal evaluieren“, „eine Kunden-Demo erstellen“ oder „zwei DeepSeek-V4-Releases mitnehmen“ spricht, fuehrt mit stuendlicher Miete eine deutlich freundlichere Cashflow-Linie und vermeidet die Abschreibung auf einer Maschine, die sich nicht aufruesten laesst. Das folgende JSON ist ein minimaler Rechner fuer interne Teams.

json

{
  "scenario": "ds4_deepseek_v4_flash_q2",
  "daily_active_hours": 2.0,
  "active_days_per_year": 180,
  "owned_total_year_one_eur": 4600,
  "rental_hourly_rate_eur": 1.1,
  "rental_year_one_eur": "daily_active_hours * active_days_per_year * rental_hourly_rate_eur",
  "break_even_years": "owned_total_year_one_eur / rental_year_one_eur"
}

i

Tipp: Tragen Sie Ihre eigenen fuenf Zahlen ein. Evaluierungsprojekte, Freelancer und kleine Teams landen typisch bei break_even_years > 3. Genau dann ist „erst mieten“ die staerkste Entscheidung.

Zwei Kosten, die Tabellen selten zeigen: Strom und Luefterlaerm. Ein voll ausgelasteter Mac Studio Ultra zieht rund 200 bis 300 W. Im 24x7-Betrieb steigert das die Stromrechnung sichtbar und der Luefter wird im Home Office zur realen Belastung. Diese Kosten an ein Rechenzentrum auszulagern ist einer der am haeufigsten unterschaetzten Gruende, warum Freelancer am Ende mieten.

05

60-Minuten-VNC-Runbook auf einem gemieteten VNCMac-Knoten

Abschnitte 3 und 4 klaeren, ob Sie kaufen sollten. Dieser Abschnitt liefert den kuerzesten Pfad zum Kopieren: vom Bestellen eines VNCMac-Knotens mit hohem Speicher bis zum Chat mit DeepSeek V4 Flash im Browser, Zielzeit unter 60 Minuten. Mit Stern markierte Schritte sind die Stellen, an denen eine reine SSH-Sitzung still stehen bleibt und nur die VNC-GUI-Session weiterhilft.

01
Knoten waehlen. Auf der Preisseite einen Remote-Mac mit mindestens 96 GB Speicher waehlen, idealerweise M3, M4 oder M5 Max und einer SSD mit mindestens 1 TB. Die per E-Mail erhaltenen VNC- und SSH-Zugangsdaten sicher aufbewahren.
02
Erste VNC-Anmeldung (Stern). Mit dem lokalen VNC-Viewer verbinden. Beim ersten Desktop-Aufruf erscheinen Dialoge wie „Diesem Geraet die Beobachtung erlauben“. SSH kann sie nicht klicken; nur eine GUI-Session bestaetigt.
03
ds4 klonen und bauen. Im Terminal git clone https://github.com/antirez/ds4 && cd ds4 && make ausfuehren. ds4 benoetigt nur den System-Clang und das Metal-SDK; der Build laeuft typisch in 1 bis 3 Minuten durch.
04
Gewichte herunterladen (Stern). Die DeepSeek-V4-Flash-q2-Gewichte (rund 90 GB) offiziell oder aus einem Spiegel laden. Erste Schreibvorgaenge in einen neuen Ordner loesen einen Disk-Schreibrechte-Dialog und einen „heruntergeladene Apps duerfen auf diesen Ordner zugreifen“-Dialog aus. SSH kann darauf nicht antworten.
05
Erstanlauf und Metal-Autorisierung (Stern). ./ds4 --model deepseek-v4-flash-q2.gguf --port 18080 ausfuehren. Beim ersten Metal-Aufruf erscheinen eine GPU-Berechtigungsabfrage und ggf. ein Gatekeeper- oder SIP-Hinweis. Im VNC-Desktop bestaetigen und bei Bedarf die Binaer in den Systemeinstellungen freigeben.
06
KV-Cache-Plausibilitaet. In Finder ~/.ds4/cache oeffnen und pruefen, dass die Cache-Dateien pro Session wachsen. Bleibt das Verzeichnis leer, wurde die Autorisierung wahrscheinlich nicht erteilt oder das Cache-Volume ist nur lesbar.
07
Cursor oder opencode anbinden. Die Client-Basis-URL auf http://<remote-mac-ip>:18080/v1 und den Modellnamen auf deepseek-v4-flash setzen. ds4 implementiert das OpenAI-kompatible Protokoll, sodass die erste Chat-Runde Tool Calling und SSE-Streaming validiert.
08
Beenden. In der VNCMac-Konsole zurueck zum Knoten und „Freigeben“ klicken. Die stuendliche Abrechnung stoppt sofort, kein vergessenes Abschalten morgen.

Eine haeufige Frage: Geht das alles ueber SSH automatisiert? Antwort: Tagesbetrieb ja, Erstautorisierung nein. Genau diese Luecke macht einen Remote-Mac mit echter Grafiksession praktischer als eine reine SSH-Cloud-VM. Die dreispaltige Tabelle unten gehoert eins zu eins in Ihre Runbook-Vorlage.

Checkpoint	SSH ausreichend?	Was VNC leisten muss
Bildschirmfreigabe erstmalig autorisieren	Nein	Im Desktop-Dialog „Erlauben“ bestaetigen
Schreibrecht fuer Gewichteordner	Nein	Systemeinstellungen → Datenschutz → Dateien und Ordner
Erster Metal-GPU-Aufruf	Nein	Dialog bestaetigen, ggf. SIP-Allowlist
KV-Cache-Verzeichnis pruefen	Teilweise (ls)	Finder zeigt das Wachstum sichtbar an
Tagesbetrieb und Cursor-Anbindung	Ja	VNC nur im Fehlerfall

!

Vorsicht: Den Metal-Berechtigungsdialog als ds4-Bug zu interpretieren ist die haeufigste Fehldiagnose. Meist sieht SSH den Dialog schlicht nicht. Ein einziger VNC-Klick loest das Problem.

Weiterfuehrend

Texte, die zu diesem Beitrag passen

Die folgenden Artikel teilen die Achse „Frontier-Modell-Inferenz plus gemieteter Mac“. Wer Inferenz und tagliche iOS-/Agent-Arbeit auf einem Miet-Knoten konsolidieren will, sollte sie zusammen lesen.

CoreWeave Rekord-Backlog

Wie die GPU-Haelfte von Compute-as-a-Service von der Mac-Haelfte abgegrenzt wird.

Lesen →

OpenClaw + Ollama-Embeddings

Agent-seitige Kleinmodelle fuer Embeddings, ergaenzend zu ds4-Vollinferenz.

Lesen →

OpenClaw-Ausgangsproxy

Proxy- und Allowlist-Muster fuer grenzueberschreitende Anthropic- und DeepSeek-Aufrufe.

Lesen →

FAQ

Haeufige Fragen

ds4 ist kein allgemeiner GGUF-Loader, sondern eine reine C-Engine, die antirez speziell fuer DeepSeek V4 Flash und PRO geschrieben hat. Sie optimiert ausschliesslich das Metal-Backend und den festplattenbasierten KV-Cache. Auf dem Mac ist sie fuer diese eine Modellfamilie typischerweise schneller als allgemeine Frameworks, soll aber llama.cpp oder MLX im Alltag nicht ersetzen.

Auf einem 96GB M3, M4 oder M5 Max liegt Flash q2 im nutzbaren Bereich, Prefill und Generierung sind klar schneller als auf preisgleichen PCs. Sie sollten jedoch 20 bis 30 GB Puffer fuer macOS, Xcode und Browser belassen, sonst kippt der Durchsatz durch Swap.

Wenn Ihre jaehrliche aktive Nutzungsquote unter rund 30 Prozent liegt, amortisieren sich Abschreibung, Strom und Luefterlautstaerke eines 512GB Mac Studio Ultra selten. Stundenweise oder monatliche Miete eines VNCMac-Knotens mit hohem Arbeitsspeicher passt deutlich besser zu On-Demand-Inferenz. Siehe Abschnitt 4 fuer die Rechnung.

Im Tagesbetrieb laufen Inferenzaufrufe ueber SSH und die OpenAI-kompatible API. Bei der Erstinstallation noetige Schritte wie Gatekeeper, Metal-Treiberautorisierung, Schreibrechte und KV-Cache-Verifikation erfordern jedoch eine echte GUI-Session. Reines SSH bleibt still stehen. Siehe die dreispaltige Tabelle in Abschnitt 5.

Fazit

Mit ds4 hat antirez die Onramp fuer Frontier-Inferenz von „Cloud-Account plus fuenfstellige GPU“ auf „Mac plus eine Binaer“ zurueckgeholt. Das schwierigere Problem hat er bewusst nicht angefasst: Ein 96GB Mac startet im vierstelligen Eurobereich, ein 512GB Mac Studio Ultra klettert ins hohe Fuenfstellige. Fuer die Mehrheit der unabhaengigen Entwickler, Forschenden, Tech-Bloggenden und kleinen Teams ist die Luecke zwischen „ich will DeepSeek V4 fahren“ und „ich kann DeepSeek V4 fahren“ keine Software-Luecke, sondern eine Cashflow-Luecke.

Auch der Besitz hat versteckte Kosten. UMA verloetet den Speicher fest im SoC, also einmal gekauft, nie aufruestbar. Luefterlaerm und Stromkosten sind im Home Office reale ergonomische Belastungen. Drei Jahre spaeter ist die Maschine genau dann nur Gebrauchtwert wert, wenn Sie auf PRO q4 wechseln moechten. Wer ehrlich beschreibt: Evaluierung, Projektarbeit, gelegentliche Inferenz, der hat in drei Jahren oft mehr abgeschrieben, als die stuendliche Miete bei VNCMac gekostet haette.

Genau hier setzt die Miete eines VNCMac-Remote-Macs im ds4-Zeitalter an: Sie macht ein „Top-Spec-lokales Inferenzsystem“, das fruehe nur denen offen stand, die einen Mac Studio Ultra kaufen konnten, zur Infrastruktur, die jede und jeder stuendlich oder monatlich nutzen kann. Inferenzdaten bleiben in Ihrem dedizierten Knoten, keine Drittanbieter-API in der Schleife, die Abrechnung stoppt, wenn die Box stoppt. Mit dem Hauptbutton unten gelangen Sie zur deutschen Preisseite. Starten Sie einen 96GB-Knoten, gehen Sie das Runbook aus Abschnitt 5 durch, und falls Sie danach immer noch einen Mac Studio Ultra unter dem Schreibtisch haben moechten, treffen Sie diese Entscheidung mit Zahlen. Spezifikationen und Tarife finden Sie auf der Startseite.

ds4 bringt DeepSeek V4 lokal auf den Mac 202696GB-Wand und Miet-Mac-Entscheidung

Warum ds4 in einer Woche 11k Sterne erreichte

Die echte DeepSeek-V4-plus-ds4-Hardware-Wand

Warum es ein Mac sein muss: UMA gegen NVIDIA HBM im Consumer-Segment

Kaufen oder mieten: TCO und Break-Even

60-Minuten-VNC-Runbook auf einem gemieteten VNCMac-Knoten

Texte, die zu diesem Beitrag passen

CoreWeave Rekord-Backlog

OpenClaw + Ollama-Embeddings

OpenClaw-Ausgangsproxy

Haeufige Fragen

Fazit

ds4 bringt DeepSeek V4 lokal auf den Mac 2026
96GB-Wand und Miet-Mac-Entscheidung