Un Mac 96 Go fait-il vraiment tourner DeepSeek V4 Flash sans à-coup ?

Sur un M3, M4 ou M5 Max avec 96 Go de mémoire unifiée, Flash en quantification q2 entre dans la zone utilisable, avec un prefill et une génération nettement plus rapides que les configurations PC équivalentes en prix. Réservez toutefois 20 à 30 Go pour macOS, Xcode et les navigateurs ; sinon le swap s'enclenche et le débit s'effondre.

Acheter un Mac Studio 512 Go pour DeepSeek V4 PRO si je ne l'utilise qu'occasionnellement ?

Si votre taux annuel d'utilisation effective est inférieur à environ 30 %, l'amortissement, l'électricité et le bruit du ventilateur d'un Mac Studio Ultra 512 Go rentabilisent rarement l'achat. Louer à l'heure ou au mois un nœud VNCMac à forte mémoire colle mieux à un cashflow d'inférence à la demande.

SSH seul suffit-il sur un Mac distant pour ds4 ?

Les appels d'inférence quotidiens passent par SSH et l'API compatible OpenAI. Mais l'installation initiale (Gatekeeper, autorisation pilote Metal, droits d'écriture disque, vérification du dossier KV) exige une vraie session graphique. SSH seul s'arrête silencieusement sur ces fenêtres.

2026 antirez ds4 : DeepSeek V4 local sur Mac, mur 96 Go et Mac loué

Q: En quoi ds4 diffère-t-il de llama.cpp ou MLX ?

ds4 n'est pas un chargeur GGUF générique. C'est un moteur C écrit à la main par antirez pour DeepSeek V4 Flash et PRO, qui n'optimise que le backend Metal et le cache KV persistant sur disque. Sur Mac il dépasse souvent les frameworks génériques pour cette famille de modèles, mais il n'a pas vocation à remplacer llama.cpp ou MLX au quotidien.

01

Pourquoi ds4 a-t-il atteint 11 000 étoiles en une semaine

Que ds4 ait été qualifié dès les premiers jours de « meilleur moteur local pour DeepSeek V4 sur Mac » ne tient pas du hasard. antirez n'est pas n'importe quel auteur open source : c'est l'inventeur de Redis et l'un des rares ingénieurs C à avoir fait une esthétique du peu de code qui fait beaucoup. Avec ds4, il a transposé cette esthétique à l'inférence LLM : pas de Python, pas de runtime tiers, pas de magie cachée. Cinq décisions de conception expliquent le score.

01
C pur, aucune dépendance d'inférence tierce. Le dépôt se construit avec un simple make. La sortie tient en un binaire unique. Plus d'interpréteur Python, plus de toolchain CUDA, plus de mur de dépendances pip : le premier lancement passe d'heures à minutes.
02
Priorité à Metal. Adaptation profonde aux GPU Apple Silicon. Sur un MacBook Pro M5 Max, le projet annonce 463 t/s de prefill et 34 t/s en génération, des chiffres qui surpassent en pratique la plupart des configurations PC équivalentes en prix avec NVIDIA grand public.
03
Contexte d'un million de tokens. ds4 prend en charge une fenêtre de 1 M de tokens, couplée au cache KV agressivement compressé de DeepSeek V4. Les longs documents et les sessions de code multi-tours cessent d'être « à relire à chaque fois ».
04
Cache KV persistant sur disque. Le cache KV est sérialisé sur le SSD NVMe du Mac. Les sessions reprennent en quelques secondes à travers la mise en veille, ce qui colle naturellement à la façon dont les utilisateurs de Mac travaillent.
05
Quantification 2 bits et agent intégré. Seuls les experts de routage sont fortement quantifiés ; le reste du modèle garde la précision, ce qui permet à Flash de tenir dans une machine 128 Go. Le Tool Calling est natif, l'API est compatible OpenAI et Anthropic, Cursor ou opencode dialoguent avec ds4 sans plombier.

La portée politique de cette conception pèse autant que le débit brut. ds4 ramène la rampe d'accès à l'inférence de frontière d'un « compte cloud et un GPU à cinq chiffres » à « un Mac et un binaire ». Il pose en filigrane une affirmation plus acérée : le vrai mur en 2026 n'est plus logiciel, il est matériel. La section 02 colle des chiffres sur ce constat.

02

Le vrai seuil matériel pour DeepSeek V4 + ds4

Les chiffres de ds4 sont brillants ; pour la plupart des lectrices et lecteurs, c'est le tableau ci-dessous qu'il faut vraiment regarder : quelle quantification, quel Mac, combien d'argent. Les prix sont des références zone francophone mai 2026 et doivent être considérés comme des ordres de grandeur, pas des devis.

Modèle	Mémoire unifiée min.	Mac typique (2026)	Prix référence (EUR)	Usage typique
DeepSeek V4 Flash · q2	96 Go	MacBook Pro M3/M4/M5 Max (96 Go UMA)	à partir de 4 000 €	Copilote de code, Q-R documentaire, recherche
DeepSeek V4 Flash · q4	256 Go	Mac Studio M3/M4 Ultra (256 Go UMA)	à partir de 8 000 €	Sortie stable, Q-R d'ingénierie long contexte
DeepSeek V4 PRO · q2	512 Go	Mac Studio M3 Ultra haut de gamme (512 Go UMA)	à partir de 14 500 €	Agent local, API publique, agents internes
DeepSeek V4 PRO · q4	1 To+	Aucune machine grand public unique. Multi-nœud ou serveur requis.	—	Équipes de recherche, serving à l'échelle plateforme

Trois détails qu'on oublie souvent : d'abord, 96 Go est le plancher pour faire tourner Flash q2, pas pour le faire tourner confortablement. Si Xcode, Chrome et quelques espaces Slack sont ouverts, gardez 20 à 30 Go de marge pour macOS, sinon le swap apparaît en pleine inférence et le prefill chute de moitié. Ensuite, q4 est plus stable que q2, mais l'empreinte mémoire et le cache KV disque grimpent à peu près linéairement ; validez vos charges sur q2 avant de payer q4. Enfin, PRO q4 n'a pas aujourd'hui de machine grand public capable de l'exécuter seul. Tout serving à l'échelle plateforme reste l'affaire d'un multi-nœud ou de serveurs.

Validez la charge réelle sur q2 d'abord, puis décidez d'investir dans 256 Go ou 512 Go. On fait tourner avant d'acheter.

03

Pourquoi ce doit être un Mac : UMA contre HBM NVIDIA grand public

ds4 désigne explicitement Metal comme « cible prioritaire », et ce n'est pas par goût esthétique pour macOS. Ce sur quoi antirez parie réellement, c'est l'architecture mémoire unifiée (UMA, Unified Memory Architecture) d'Apple Silicon. Au niveau grand public, UMA possède des avantages structurels que NVIDIA ne peut pas reproduire.

01
CPU et GPU partagent un grand pool. Les SoC M3, M4 et M5 soudent 96 à 512 Go directement dans le boîtier. Les poids de modèle n'ont pas à être copiés entre RAM CPU et VRAM GPU, ce qui supprime le transfert PCIe et toute une classe de pannes OOM.
02
Plafond VRAM grand public NVIDIA. Les cartes NVIDIA grand public actuelles plafonnent autour de 24 à 32 Go. Pour faire tenir 90 Go de poids Flash q2, il faut du multi-GPU ou de l'offload CPU, qui rendent une grande part du débit au PCIe et à la communication inter-cartes.
03
Haute bande passante, faible consommation. La bande passante mémoire des M4 et M5 Max approche les valeurs HBM, pour une consommation totale de quelques dizaines de watts. Un circuit domestique suffit. Un serveur GPU à mémoire équivalente exige une PDU dédiée et du refroidissement en rack.
04
Affinité naturelle avec le cache KV SSD. Les lectures séquentielles NVMe macOS dépassent souvent 5 Go/s, et le cache KV disque de ds4 redémarre une session en secondes. C'est faisable sur Linux + PCIe SSD, mais vous gérez vous-même mmap, verrouillage et coins de l'ordonnanceur.
05
Le prix à payer. UMA soude la mémoire de façon permanente au SoC. Acheté une fois, jamais améliorable. Un MacBook Pro 128 Go ne deviendra jamais 256 Go. C'est précisément pourquoi « louer d'abord, acheter ensuite » est rationnellement fort en 2026. Section 04 chiffres en main.

Reformulé : « pourquoi un Mac » n'est pas un slogan marketing, c'est une observation matérielle. Au niveau grand public, seul Apple Silicon livre 96 Go et plus de vraie mémoire partagée dans une seule machine. À l'échelle datacenter, NVIDIA H200 et B100 restent indiscutables pour l'entraînement ; pour ramener l'inférence au niveau « une personne, un porte-monnaie », Mac est la seule plateforme grand public sur laquelle des ingénieurs portent sérieusement. C'est pour cela que ds4 abandonne la prétention « cross-plateforme » dès le départ.

04

Acheter ou louer : TCO et point d'équilibre

Le tableau ci-dessous condense la question achat-vs-location en une seule dimension, coût total de la première année, pour que vous puissiez en discuter avec l'équipe en cinq minutes. Les chiffres sont des références zone francophone mai 2026 en euros ; remplacez-les par vos propres devis et tarifs d'électricité.

Option	Investissement initial	Coûts cachés annuels	Total année 1 (charge légère)	Profil / amortissement
Achat MacBook Pro M5 Max 96 Go	à partir de 4 000 €	Électricité, amortissement, non évolutif 400–600 €	~ 4 600 €	3 h+ par jour, horizon 3 ans
Achat Mac Studio Ultra 256 Go	à partir de 8 000 €	Électricité, bruit, amortissement 700–1 100 €	~ 9 000 €	Mutualisation équipe, inférence lourde quotidienne
Achat Mac Studio Ultra 512 Go haut de gamme	à partir de 14 500 €	Électricité, maintenance, amortissement 1 100–1 700 €	~ 16 000 €	API publique, charges de recherche
Location Mac distant VNCMac 96 Go+ (mensuel)	0 €	Mensualité fixe x mois actifs	Souvent 1/3 à 1/5 du coût d'achat	Projets, inférence occasionnelle, évaluation
Location nœud VNCMac haute mémoire (horaire)	0 €	Stop = stop, pas de coût d'inactivité	Le plus bas (heures actives uniquement)	Évaluation courte, PoC unique, captation de démo

La bonne lecture n'est pas « quelle ligne est la moins chère » mais placer son propre profil sur le tableau. Trois heures par jour, tous les jours, pendant trois ans : un MacBook Pro 96 Go s'amortit. À l'inverse, « évaluer ds4 quelques fois », « produire une démo client », « suivre une ou deux versions de DeepSeek V4 » appellent un cashflow horaire, bien plus doux que de payer cinq chiffres d'un coup et de subir trois ans d'amortissement sur une machine non évolutive. Le JSON ci-dessous est un mini-calculateur à coller dans un document d'équipe.

json

{
  "scenario": "ds4_deepseek_v4_flash_q2",
  "daily_active_hours": 2.0,
  "active_days_per_year": 180,
  "owned_total_year_one_eur": 4600,
  "rental_hourly_rate_eur": 1.1,
  "rental_year_one_eur": "daily_active_hours * active_days_per_year * rental_hourly_rate_eur",
  "break_even_years": "owned_total_year_one_eur / rental_year_one_eur"
}

i

Astuce : remplacez vos cinq chiffres réels. Évaluateurs, freelances et petites équipes tombent souvent sur break_even_years > 3, le cas où « louer d'abord » est le plus défendable.

Deux coûts qui glissent souvent hors des tableurs : l'électricité et le bruit du ventilateur. Un Mac Studio Ultra en pleine charge tire 200 à 300 W. En 24x7, la facture grimpe d'un cran et le bruit en bureau partagé ou à domicile devient une vraie nuisance ergonomique. Déléguer ce coût ressenti à un datacenter est l'une des raisons les plus sous-estimées pour lesquelles les freelances finissent par louer.

05

Runbook VNC 60 minutes sur un nœud VNCMac loué

Les sections 3 et 4 tranchent « faut-il acheter ». Cette section donne le chemin le plus court à copier-coller : de la commande d'un nœud VNCMac haute mémoire au dialogue avec DeepSeek V4 Flash dans un navigateur, cible 60 minutes. Les étoiles marquent les étapes où une session SSH seule reste figée et où la session graphique VNC est indispensable.

01
Choisir le nœud. Sur la page des tarifs, choisissez un Mac distant avec au moins 96 Go de mémoire, idéalement M3, M4 ou M5 Max et un SSD d'au moins 1 To. Conservez les identifiants VNC et SSH reçus par e-mail.
02
Première connexion VNC (étoile). Connectez-vous avec votre client VNC local. À la première entrée sur le bureau, des dialogues du type « autoriser cet ordinateur à être observé » apparaissent. SSH ne peut pas les cliquer ; seule la session graphique consent.
03
Cloner et compiler ds4. Dans le Terminal, exécutez git clone https://github.com/antirez/ds4 && cd ds4 && make. ds4 dépend uniquement de Clang système et du SDK Metal ; la compilation dure typiquement 1 à 3 minutes.
04
Télécharger les poids (étoile). Récupérez les poids DeepSeek V4 Flash q2 (environ 90 Go) depuis la source officielle ou un miroir. Les premières écritures dans un nouveau dossier déclenchent un dialogue de droits d'écriture disque et un dialogue « les applications téléchargées peuvent-elles accéder à ce dossier ? » auxquels SSH ne peut pas répondre.
05
Premier lancement et autorisation Metal (étoile). Lancez ./ds4 --model deepseek-v4-flash-q2.gguf --port 18080. Le premier appel Metal déclenche une demande d'accès GPU et possiblement un avertissement Gatekeeper ou SIP. Approuvez dans le bureau VNC, et au besoin allowlist le binaire dans Réglages système.
06
Vérification du cache KV. Dans le Finder, ouvrez ~/.ds4/cache et constatez que les fichiers de cache grossissent à chaque session. S'il reste vide, l'autorisation n'est probablement pas passée ou le volume est en lecture seule.
07
Connecter Cursor ou opencode. Pointez la base URL du client sur http://<ip-mac-distant>:18080/v1 et le nom de modèle sur deepseek-v4-flash. ds4 implémente le protocole compatible OpenAI ; le premier échange valide le Tool Calling et le streaming SSE.
08
Arrêter en fin de séance. Dans la console VNCMac, libérez le nœud. La facturation horaire s'arrête à l'instant de la libération, plus de surprise demain.

Une question fréquente : peut-on tout automatiser en SSH ? Réponse honnête : oui pour les appels d'inférence courants, non pour la première autorisation. C'est précisément ce qui rend un Mac distant doté d'une véritable session graphique plus pratique qu'une VM cloud SSH-only. Le tableau à trois colonnes ci-dessous est à coller directement dans votre runbook.

Point de contrôle	SSH suffit-il ?	Ce que VNC doit faire
Première autorisation de partage d'écran	Non	Cliquer « Autoriser » sur la fenêtre système
Droit d'écriture sur le dossier des poids	Non	Réglages système → Confidentialité → Fichiers et dossiers
Premier appel GPU Metal	Non	Approuver le dialogue, ajouter à la liste SIP si demandé
Vérification du dossier cache KV	Partiel (ls)	Finder rend visible la croissance de la taille
Appels d'inférence quotidiens / Cursor	Oui	VNC seulement en cas de panne

!

Attention : attribuer la fenêtre d'autorisation Metal à un bug de ds4 est l'erreur de diagnostic la plus fréquente. Le plus souvent, SSH n'a tout simplement pas accès à la fenêtre. Un seul clic en VNC suffit.

Pour aller plus loin

Lectures complémentaires

Les articles ci-dessous appartiennent à la même ligne « inférence de modèle de frontière + Mac loué ». À lire ensemble pour consolider inférence et travail iOS / agent quotidien sur un même nœud loué.

Backlog record de CoreWeave

Comment la moitié GPU du compute-as-a-service se sépare de la moitié Mac.

Lire →

OpenClaw + embeddings Ollama

Petits modèles côté agent pour les embeddings, complément à ds4 en pleine inférence.

Lire →

Proxy sortant d'OpenClaw

Schémas proxy et allowlist pour les appels transfrontaliers DeepSeek et Anthropic.

Lire →

FAQ

Questions fréquentes

ds4 n'est pas un chargeur GGUF générique. C'est un moteur C écrit à la main par antirez pour DeepSeek V4 Flash et PRO, qui n'optimise que le backend Metal et le cache KV persistant sur disque. Sur Mac il dépasse souvent les frameworks génériques pour cette famille de modèles, mais il n'a pas vocation à remplacer llama.cpp ou MLX au quotidien.

Sur un M3, M4 ou M5 Max avec 96 Go de mémoire unifiée, Flash en q2 entre dans la zone utilisable, prefill et génération nettement plus rapides que des configurations PC équivalentes. Réservez 20 à 30 Go pour macOS, Xcode et navigateurs ; sinon le swap s'enclenche et le débit s'effondre.

Si votre taux annuel d'utilisation est inférieur à environ 30 %, l'amortissement, l'électricité et le bruit d'un Mac Studio Ultra 512 Go rentabilisent rarement l'achat. Louer à l'heure ou au mois un nœud VNCMac à forte mémoire colle mieux à un cashflow d'inférence à la demande. Voir section 4 pour le calcul.

Les appels d'inférence quotidiens passent par SSH et l'API compatible OpenAI. Mais l'installation initiale (Gatekeeper, autorisation Metal, droits d'écriture disque, vérification du dossier KV) exige une vraie session graphique. SSH seul s'arrête silencieusement sur ces fenêtres. Voir le tableau à trois colonnes en section 5.

Conclusion

Avec ds4, antirez ramène la rampe d'accès à l'inférence de frontière d'un « compte cloud et un GPU à cinq chiffres » à « un Mac et un binaire ». Ce qu'il n'a pas résolu, et n'avait pas vocation à résoudre, c'est le problème plus dur : un Mac 96 Go démarre à quatre chiffres en euros, un Mac Studio Ultra 512 Go franchit les cinq chiffres. Pour la majorité des développeurs indépendants, chercheurs, blogueurs techniques et petites équipes, l'écart entre « je veux faire tourner DeepSeek V4 » et « je peux faire tourner DeepSeek V4 » n'est pas un écart logiciel ; c'est un écart de trésorerie.

Posséder a ses coûts cachés. UMA soude la mémoire au SoC, donc acheté une fois, jamais améliorable. Le bruit et l'électricité sont une nuisance ergonomique réelle en télétravail. Trois ans plus tard, votre machine ne vaudra que son prix d'occasion au moment précis où vous aimeriez passer à PRO q4. Si votre profil honnête est évaluation, projets, inférence occasionnelle, l'amortissement sur trois ans dépasse souvent ce que la location horaire VNCMac aurait coûté.

C'est tout l'intérêt de la location de Mac distant VNCMac à l'ère ds4 : transformer un « environnement d'inférence locale haut de gamme » jadis réservé à ceux qui pouvaient s'offrir un Mac Studio Ultra en infrastructure que chacun peut louer à l'heure ou au mois. Les données d'inférence restent dans votre nœud dédié, sans API tierce dans la boucle, et la facturation s'arrête dès que vous arrêtez la machine. Le bouton principal ci-dessous mène à la page de tarifs en français ; ouvrez un nœud classe 96 Go, déroulez le runbook de la section 5, et si vous souhaitez encore poser un Mac Studio Ultra sous votre bureau, vous le déciderez sur des chiffres. Consultez les configurations et plans sur la page d'accueil.

ds4 amène DeepSeek V4 en local sur Mac en 2026Le mur des 96 Go et la décision Mac loué

Pourquoi ds4 a-t-il atteint 11 000 étoiles en une semaine

Le vrai seuil matériel pour DeepSeek V4 + ds4

Pourquoi ce doit être un Mac : UMA contre HBM NVIDIA grand public

Acheter ou louer : TCO et point d'équilibre

Runbook VNC 60 minutes sur un nœud VNCMac loué

Lectures complémentaires

Backlog record de CoreWeave

OpenClaw + embeddings Ollama

Proxy sortant d'OpenClaw

Questions fréquentes

Conclusion

ds4 amène DeepSeek V4 en local sur Mac en 2026
Le mur des 96 Go et la décision Mac loué