Drei-Pfad-Matrix · Runbook · VNC · Logs
v2026.4.26 ergänzt die Talk-Familie um einen Browser-first-Pfad: bidirektionale Sprache über einen Google-Live-Transport, während Gateway Sessions, Token scopes und Relay-Semantik zusammenhält — kein Synonym für Talk Mode + MLX (Talk-MLX-Leitfaden), nicht gleichbedeutend mit Gemini TTS (TTS-Artikel) und nicht openclaw migrate (4.26 migrate). Wir liefern Grenzen, eine Symptommatrix, ein Neun-Schritte-Runbook, vier Ticketzeilen, Relay-Hinweise neben dem HTTPS-Reverse-Proxy-Leitfaden sowie eine VNC-first-Abnahme neben dem Browser-MCP-Hardening; ergänzend bleiben Docker (Compose) und launchd-Themen weiterhin parallel zu öffnen.
Für Produktionsteams ist entscheidend, dass HTTPS-Zwang, CORS-Allowlists und WebSocket-Upgrades zusammen dokumentiert werden — nicht erst wenn das Incident-Bridgewiki drei Screenshots später zusammengebastelt wird. Auf gemieteten Remote-Macs verschärft sich das klassische Problem Session-Splitting: Gateway-Prozesse starten über SSH unter einem Nutzer, während Chromium unter einem anderen Fenster läuft; dann sind Mikrofonfreigaben formal „erteilt“, aber nie für denselben TCC-Kontext sichtbar. Der vorliegende Text verdichtet daher wiederkehrende Eskalationsmuster aus mehreren Early-Adopter-Runden in eine Reihenfolge, die Sie ohne Übersetzungsverlust zwischen Infra und Produkt austauschen können. Zusätzlich verweisen wir auf bewährte Nginx-/Caddy-Muster aus dem dedizierten Reverse-Proxy-Leitfaden, statt jedes Mal neue Timeouts zu erfinden.
Wenn Sie parallel Automations-Stacks (Browser MCP) betreiben, halten Sie die Skriptoberflächen bewusst getrennt: Echtzeit-Sprache belastet langlebige Duplexverbindungen, während DevTools-Brücken kurze Befehlsantworten erwarten. Ein und dieselbe Extension, die Requests hart filtert, kann in der Sprachpipeline flackernde Stille vortäuschen. Testen Sie deshalb Smoke-Runs in einem sauberen Profil und nur danach mit vollständigem Extension-Satz. Für Finanz- oder Gesundheitskontexte ergänzen Sie außerdem ein kurzes Datenklassifikationsstatement im Change Record, damit Aufzeichnungen nicht versehentlich aus der VNC-Session in unkontrollierte Kanäle wandern.
Marketing verwischt „Talk“ — hier ist die technische Grenzziehung: Browser-Talk in Echtzeit lebt von Chromium-Zustimmungen, CSP, HTTPS-Terminierung und WebRTC-/Relay-Signalisierung; Talk Mode + MLX optimiert lokale Inferenz und Unterbrechungslogik auf Apple Silicon; Gemini TTS rendert gesprochene Ausgaben aus Text — nicht denselben Duplex wie eine Browser-Session. migrate wiederum kümmert sich um Konfigurationsbäume und Claude-Imports, nicht um RTP-Jitter.
Gateway bleibt Dirigent: Tabs dürfen keine API-Schlüssel in Local Storage parken; Secrets laufen über SecretRef. Relay-Anzeigenamen müssen zu TLS-Zertifikaten passen — sonst wirken ICE-Kandidaten erfolgreich, Browser-Callbacks aber nicht („random disconnects“).
Browser Talk + Google-Live-Transport: duplex Cloud-Sitzung im Gateway-Kontext; prüfen Sie Same-Origin, HTTPS, Mixed Content sowie Upgrade/WebSocket bis zum Live-Ingress.
Talk Mode MLX: stark gekoppelt an Mikrofon + lokale Inferenz; kollidiert mit rein CPU-/Read-only-Mietimages — siehe den MLX-Leitfaden.
Gemini TTS: Lesestimmen/Tickets — keine Pflicht zur Gesprächsführung mit Unterbrechungen.
Gateway-Relay: Trace-/Session-IDs müssen zwischen Browser-Netzwerkpanel und Gateway-Logs zusammenfallen.
VNC: TCC-Schritte (Mikrofon, Automation, optional Bildschirm) sind ohne grafische Session nicht vollständig klickbar.
Zuerst Stack wählen, dann Latenz messen — „klingt“ und „ticketierbar“ sind zwei Abnahmen.
Nutzen Sie die Tabelle in Incident-Bridges: zuerst Plumbing, dann Modellquoten.
| Symptom | Zuerst prüfen | Dann | Typische Fehldeutung |
|---|---|---|---|
| Kein Mikrofon-Prompt / kein Gerät | Chromium-Seitenrecht, macOS-Eingabenliste, gleicher Nutzer wie Gateway | Virtuelle Audiokarte auf Mietimage | Sofort Region/API drehen |
| Handshake ok, erstes Byte sehr spät, dann Abbruch | Reverse-Proxy Idle, fehlerhafter WS-Upgrade | RTT zum Live-Ingress | Modell-SKU erhöhen |
| Gateway sieht Sessions, Browser idle | CORS/CSP/base href | TLS-Inspection/Extensions | Core-Daemon „tot“ |
| Nur einzelne Nutzer | API-Keys/Sandbox | Webhook-Routing | „WLAN spinnt“ |
„Dann“-Spalte gehört oft zum HTTPS-/WebSocket-Reverse-Proxy-Leitfaden. Browser-MCP belastet DevTools-Brücken — hier Duplex-Audio; parallel möglich, aber Extensions können Requests filtern.
Jeder Schritt produziert einen Satz fürs Ticket — parallel zu migrate-/Docker-/launchd-Zweigen.Docker-Hosts haben ein anderes „localhost“ als die VNC-Sitzung.
Version einfrieren: openclaw --version, Gateway-Tag; Browser-Talk nicht mit 4.25-Cold-Registry-repair vermischen.
Backup: State/~/.openclaw packen — smoke vs. Produktion labeln.
doctor: Ports/Zertifikats-SAN früh zeigen.
Gateway: Health auf 18789, dann DNS/TLS/WSS.
Browser Talk aktivieren: Live-Transport + Region dokumentieren.
SecretRef: keine Klartext-Exports.
Incognito-Smoke: erst Mikrofon + Session-ID, dann Prompts.
Relay-Kohärenz: Session-/Trace-Ketten über Browser→Gateway→Live suchen — Idle/Timeouts der Proxy-Schicht bei halb-offenen Streams checken.
Rollback: Schalter zurück zu Text/TTS mit KPI-Schwellen.
Zeichnen Sie Container-Netz und Audiostack — falsch gebundene Devices wirken wie „stille Mikrofone“.
Zahl 1: immer 18789 als Basis messen.Zahl 2: unter zwei Minuten soll ein Feedback („Klick“, Metering) kommen — sonst Bridge verdächtigen.Zahl 3: zwei Incognito-Läufe (kalt/warm), damit CORS nicht aus Cache täuscht.
gateway:
browserTalk:
enabled: true
realtimeTransport: google-live
relay:
bindLocal: "127.0.0.1"
advertisePublicHost: "agent.example.com"
cors:
allowedOrigins:
- "https://agent.example.com"
secretsRef:
googleLiveApiKey: "secretref:prod/google-live/key"CORS ist Pflicht; Mixed Content verwirrt Mikrofonprompts.relay.advertisePublicHost muss zur TLS-Kante passen — sonst ICE ohne Callback.
Klassiker: Gateway via SSH als Nutzer A, Browser als Nutzer B — TCC und Schlüsselbund treffen nie zusammen.
Gateway als Launch-Agent desselben Users wie das VNC-Desktoplogin.
Unter „Datenschutz → Mikrofon“ Chromium/Safari erlauben, dann Browser-Site-Rechte.
Automation braucht Bedienhilfen — abstimmen mit Browser-MCP.
Bildschirmaufnahme nur kurz zum ICE-Korrelieren.
Ergänzt den MLX-Artikel — dort lokale Inferenz, hier WSS/TLS/Relay.
Bei gleichzeitig stockenden WS-Frames und Quotenwarnungen: (1) DevTools WS ping/pong, (2) Gateway-JSON mit Session-ID, (3) Proxy-upstream_time, (4) Billing — nicht umgekehrt.
Meshen Sie Browser→Gateway-RTT und Gateway→Live getrennt; globales „Quota erhöhen“ hilft oft nicht.
Operational sollten dokumentiert sein, welche KPI einen Fallback auf Text oder TTS auslösen — nicht erst beim Totalausfall suchen.
Enterprise-TLS-Inspection braucht oft Ausnahmen für dynamische Audio/WebRTC-Pfade — sonst wirken Logs grün, der Duplex stirbt still.
08Nein auf demselben Mikrofonpfad — eine Primär-Session plus dokumentierter Fallback.
Upgrade/Host/Zertifikatskette und Mixed Content vor Credential-Theatern.
Unzureichend — VNC für Chromium-/TCC-Kette einplanen.
Ja — stabile Plugin-/State-Pfade (migrate), dann Relay.
Browser-Talk mit Google-Live-Transport ist pingelig bei HTTPS/Relay/TCC — erst wenn diese Ebene sauber ist, lohnen Prompt-Tuning oder Modellfragen.
VNCMac-Remote-Macs kombinieren SSH für Automation und VNC für Mikrofonketten — ideal für gestaffelte Piloten.
Mehr Infos zur Mietseite und zur Startseite; Parallel die Docker-/launchd-/Proxy-Artikel offenhalten.