Pourquoi garder les embeddings sur Ollama local mais le chat dans le cloud ?

Les embeddings sont très sollicités et facturés de façon linéaire ; certains fragments ne doivent pas quitter le réseau. Quand la qualité des réponses dépend encore d'un grand modèle cloud, l'hybride est courant : embeddings locaux plus complétion cloud.

Ollama doit-il tourner dans Docker sur le Mac distant ?

Non. Pour aller vite, utilisez l'installateur officiel ou Homebrew sur le même hôte qu'OpenClaw. Si votre équipe standardise les conteneurs, suivez le guide Docker du site et rappelez-vous que le localhost du conteneur n'est pas celui de l'hôte.

2026 OpenClaw v2026.3.24 hybride Ollama | Embeddings locaux + LLM cloud

Les équipes sur OpenClaw v2026.3.24 affrontent souvent deux tensions : recherche mémoire et embeddings sont fréquents et coûteux, tandis que la qualité du chat profite encore des LLM cloud. Faire tourner Ollama sur le même Mac distant pour des embeddings locaux tout en laissant les complétions chez Anthropic, OpenAI ou équivalent est un schéma hybride éprouvé. Ce guide propose une matrice de décision prête pour 2026, des contrôles d'installation et de modèle Ollama, un ordre de câblage OpenClaw recommandé, et comment valider dans une session graphique VNC. Des liens croisés couvrent Docker, erreurs fréquentes et stabilité launchd.

1. À qui convient l'hybride

Tout cloud convient aux prototypes et faibles volumes. Tout local convient à l'isolation stricte mais exige RAM et exploitation des modèles. L'hybride reste courant en 2026 : les embeddings restent sur un petit modèle Ollama ; le modèle principal reste côté cloud. Sur un Mac distant physique avec VNC, Terminal, navigateur et Réglages système coexistent—souvent plus rapide que SSH seul pour déboguer les ports loopback et les invites de consentement.

2. Points douloureux

Volume d'appels sous-estimé : RAG, outils et résumés multi-tours multiplient les appels d'embedding par rapport à un chat occasionnel.
Résidence des données : la conformité veut savoir quels fragments quittent le réseau lors de la vectorisation.
Dérive après reconstruction : les nœuds réimagés perdent modèles mis en cache ou configs sans traquer données Ollama et fichiers OpenClaw.
Angles morts sans interface : consoles web et vérifications localhost sont pénibles sans session bureau.

3. Matrice de décision

Mode	Idéal pour	Avantage	Inconvénient
Embeddings cloud + chat cloud	POC, usage minuscule	Exploitation minimale	Coût et egress montent vite
Embeddings Ollama + chat cloud	Assistants, recherche base de connaissances, PME	Coût d'embedding prévisible ; fragments locaux possibles	Cache modèle et discipline RAM
Tout local	Isolation élevée	Egress minimal	Capacité et charge des mises à jour

4. Sept étapes d'exécution

1Épingler OpenClaw sur v2026.3.24 ou votre branche 2026.3.x convenue pour aligner les clés de config sur la doc.

2Installer Ollama sur macOS : script officiel ou brew install ollama ; vérifier HTTP sur 127.0.0.1:11434.

3Tirer un modèle d'embedding : exemple ollama pull nomic-embed-text ; vérifier avec ollama list.

4Sonder en local : curl http://127.0.0.1:11434/api/tags doit renvoyer du JSON.

5Câbler OpenClaw : pointer embedding / recherche mémoire vers une URL de base locale compatible OpenAI (souvent http://127.0.0.1:11434/v1 avec l'id du modèle choisi). Garder les clés API chat chez le fournisseur cloud. Enregistrer la config et redémarrer la passerelle.

6Vérifier en VNC : ouvrir la console web si activée ; lancer openclaw doctor ou le flux santé du runbook ; confirmer que le trafic embedding touche localhost.

7Persister : pour du 24/7, associer Ollama et la passerelle à la checklist launchd du site.

5. Chiffres de référence

Ports : Ollama écoute par défaut sur 11434 ; ne pas confondre avec la passerelle OpenClaw (souvent 18789).
Mémoire : les modèles d'embedding consomment aussi la mémoire unifiée ; éviter d'exécuter en parallèle d'énormes modèles de chat sur le même hôte sans marge.
Disque : chaque tag stocke des blobs ; purger les modèles inutilisés si le disque distant est serré.

Pour des piles conteneurisées, lisez le guide Docker et corrigez la sémantique localhost entre conteneurs et hôte.

6. Erreurs et FAQ

Connexion refusée sur 11434 : service arrêté ou bloqué ; vérifier ollama dans Moniteur d'activité.

Modèle manquant : décalage entre config OpenClaw et ollama list ; aligner les noms exactement.

Embeddings ok mais recherche vide : index non reconstruit après migration ; suivre les étapes de réindexation et lire les logs passerelle.

Pannes plus larges : erreurs courantes et dépannage.

Conclusion

Les déploiements hybrides paient quand on sépare le travail d'embedding à haute fréquence du raisonnement cloud premium. Faire tourner la même pile sous Windows ou sur du matériel faible fait souvent perdre du temps en pilotes, droits et démons capricieux. Un vrai environnement macOS + Apple Silicon—surtout exploitable via VNC—réduit le câblage initial et les mises à jour ultérieures. Si vous ne voulez pas acheter du matériel pour des charges OpenClaw intermittentes mais avez besoin d'un comportement Mac proche de la prod, louer un Mac distant chez VNCMac maintient Ollama et OpenClaw sur un hôte stable pendant que vous vous concentrez sur prompts, outils et gouvernance—pas sur la garde du bare metal.

2026 OpenClaw v2026.3.24 : embeddings Ollama locaux + LLM cloud hybride sur un Mac distant (installation VNC, configuration et auto-contrôle)