OpenClaw 30. April 2026 ca. 19 Min. v2026.4.26 Gateway

2026 OpenClaw v2026.4.26
Browser-Talk, Google Live & Gateway-Relay

Drei-Pfad-Matrix · Runbook · VNC · Logs

Browser-Sprachsession und Gateway-Relay

v2026.4.26 ergänzt die Talk-Familie um einen Browser-first-Pfad: bidirektionale Sprache über einen Google-Live-Transport, während Gateway Sessions, Token scopes und Relay-Semantik zusammenhält — kein Synonym für Talk Mode + MLX (Talk-MLX-Leitfaden), nicht gleichbedeutend mit Gemini TTS (TTS-Artikel) und nicht openclaw migrate (4.26 migrate). Wir liefern Grenzen, eine Symptommatrix, ein Neun-Schritte-Runbook, vier Ticketzeilen, Relay-Hinweise neben dem HTTPS-Reverse-Proxy-Leitfaden sowie eine VNC-first-Abnahme neben dem Browser-MCP-Hardening; ergänzend bleiben Docker (Compose) und launchd-Themen weiterhin parallel zu öffnen.

Für Produktionsteams ist entscheidend, dass HTTPS-Zwang, CORS-Allowlists und WebSocket-Upgrades zusammen dokumentiert werden — nicht erst wenn das Incident-Bridgewiki drei Screenshots später zusammengebastelt wird. Auf gemieteten Remote-Macs verschärft sich das klassische Problem Session-Splitting: Gateway-Prozesse starten über SSH unter einem Nutzer, während Chromium unter einem anderen Fenster läuft; dann sind Mikrofonfreigaben formal „erteilt“, aber nie für denselben TCC-Kontext sichtbar. Der vorliegende Text verdichtet daher wiederkehrende Eskalationsmuster aus mehreren Early-Adopter-Runden in eine Reihenfolge, die Sie ohne Übersetzungsverlust zwischen Infra und Produkt austauschen können. Zusätzlich verweisen wir auf bewährte Nginx-/Caddy-Muster aus dem dedizierten Reverse-Proxy-Leitfaden, statt jedes Mal neue Timeouts zu erfinden.

Wenn Sie parallel Automations-Stacks (Browser MCP) betreiben, halten Sie die Skriptoberflächen bewusst getrennt: Echtzeit-Sprache belastet langlebige Duplexverbindungen, während DevTools-Brücken kurze Befehlsantworten erwarten. Ein und dieselbe Extension, die Requests hart filtert, kann in der Sprachpipeline flackernde Stille vortäuschen. Testen Sie deshalb Smoke-Runs in einem sauberen Profil und nur danach mit vollständigem Extension-Satz. Für Finanz- oder Gesundheitskontexte ergänzen Sie außerdem ein kurzes Datenklassifikationsstatement im Change Record, damit Aufzeichnungen nicht versehentlich aus der VNC-Session in unkontrollierte Kanäle wandern.

01

Leitplanken: drei Sprach-/Talk-Stapel

Marketing verwischt „Talk“ — hier ist die technische Grenzziehung: Browser-Talk in Echtzeit lebt von Chromium-Zustimmungen, CSP, HTTPS-Terminierung und WebRTC-/Relay-Signalisierung; Talk Mode + MLX optimiert lokale Inferenz und Unterbrechungslogik auf Apple Silicon; Gemini TTS rendert gesprochene Ausgaben aus Text — nicht denselben Duplex wie eine Browser-Session. migrate wiederum kümmert sich um Konfigurationsbäume und Claude-Imports, nicht um RTP-Jitter.

Gateway bleibt Dirigent: Tabs dürfen keine API-Schlüssel in Local Storage parken; Secrets laufen über SecretRef. Relay-Anzeigenamen müssen zu TLS-Zertifikaten passen — sonst wirken ICE-Kandidaten erfolgreich, Browser-Callbacks aber nicht („random disconnects“).

  1. 01

    Browser Talk + Google-Live-Transport: duplex Cloud-Sitzung im Gateway-Kontext; prüfen Sie Same-Origin, HTTPS, Mixed Content sowie Upgrade/WebSocket bis zum Live-Ingress.

  2. 02

    Talk Mode MLX: stark gekoppelt an Mikrofon + lokale Inferenz; kollidiert mit rein CPU-/Read-only-Mietimages — siehe den MLX-Leitfaden.

  3. 03

    Gemini TTS: Lesestimmen/Tickets — keine Pflicht zur Gesprächsführung mit Unterbrechungen.

  4. 04

    Gateway-Relay: Trace-/Session-IDs müssen zwischen Browser-Netzwerkpanel und Gateway-Logs zusammenfallen.

  5. 05

    VNC: TCC-Schritte (Mikrofon, Automation, optional Bildschirm) sind ohne grafische Session nicht vollständig klickbar.

Zuerst Stack wählen, dann Latenz messen — „klingt“ und „ticketierbar“ sind zwei Abnahmen.

02

Symptommatrix

Nutzen Sie die Tabelle in Incident-Bridges: zuerst Plumbing, dann Modellquoten.

SymptomZuerst prüfenDannTypische Fehldeutung
Kein Mikrofon-Prompt / kein GerätChromium-Seitenrecht, macOS-Eingabenliste, gleicher Nutzer wie GatewayVirtuelle Audiokarte auf MietimageSofort Region/API drehen
Handshake ok, erstes Byte sehr spät, dann AbbruchReverse-Proxy Idle, fehlerhafter WS-UpgradeRTT zum Live-IngressModell-SKU erhöhen
Gateway sieht Sessions, Browser idleCORS/CSP/base hrefTLS-Inspection/ExtensionsCore-Daemon „tot“
Nur einzelne NutzerAPI-Keys/SandboxWebhook-Routing„WLAN spinnt“

„Dann“-Spalte gehört oft zum HTTPS-/WebSocket-Reverse-Proxy-Leitfaden. Browser-MCP belastet DevTools-Brücken — hier Duplex-Audio; parallel möglich, aber Extensions können Requests filtern.

03

Neun-Schritte-Runbook

Jeder Schritt produziert einen Satz fürs Ticket — parallel zu migrate-/Docker-/launchd-Zweigen.Docker-Hosts haben ein anderes „localhost“ als die VNC-Sitzung.

  1. 01

    Version einfrieren: openclaw --version, Gateway-Tag; Browser-Talk nicht mit 4.25-Cold-Registry-repair vermischen.

  2. 02

    Backup: State/~/.openclaw packen — smoke vs. Produktion labeln.

  3. 03

    doctor: Ports/Zertifikats-SAN früh zeigen.

  4. 04

    Gateway: Health auf 18789, dann DNS/TLS/WSS.

  5. 05

    Browser Talk aktivieren: Live-Transport + Region dokumentieren.

  6. 06

    SecretRef: keine Klartext-Exports.

  7. 07

    Incognito-Smoke: erst Mikrofon + Session-ID, dann Prompts.

  8. 08

    Relay-Kohärenz: Session-/Trace-Ketten über Browser→Gateway→Live suchen — Idle/Timeouts der Proxy-Schicht bei halb-offenen Streams checken.

  9. 09

    Rollback: Schalter zurück zu Text/TTS mit KPI-Schwellen.

Zeichnen Sie Container-Netz und Audiostack — falsch gebundene Devices wirken wie „stille Mikrofone“.

04

Vier Ticket-Sätze & Zahlenanker

  • A: Browser-Talk aktiv; Gateway 18789 grün; WSS durch TLS-Endpunkt; Incognito-Mikrofon ok.
  • B: Trace konsistent — Dropouts korrelieren mit Proxy-Timern vor Quotenpanels.
  • C: Secrets über SecretRef — Audit-ID angeben.
  • D: Fallback zu MLX/TTS dokumentiert — Owner genannt.

Zahl 1: immer 18789 als Basis messen.Zahl 2: unter zwei Minuten soll ein Feedback („Klick“, Metering) kommen — sonst Bridge verdächtigen.Zahl 3: zwei Incognito-Läufe (kalt/warm), damit CORS nicht aus Cache täuscht.

05

Relay-Ausschnitt (YAML-Beispiel)

YAML (Auszug)
gateway:
  browserTalk:
    enabled: true
    realtimeTransport: google-live
    relay:
      bindLocal: "127.0.0.1"
      advertisePublicHost: "agent.example.com"
    cors:
      allowedOrigins:
        - "https://agent.example.com"
secretsRef:
  googleLiveApiKey: "secretref:prod/google-live/key"

CORS ist Pflicht; Mixed Content verwirrt Mikrofonprompts.relay.advertisePublicHost muss zur TLS-Kante passen — sonst ICE ohne Callback.

06

Remote-Mac / VNC: gleiche Benutzer-Sitzung

Klassiker: Gateway via SSH als Nutzer A, Browser als Nutzer B — TCC und Schlüsselbund treffen nie zusammen.

  1. 01

    Gateway als Launch-Agent desselben Users wie das VNC-Desktoplogin.

  2. 02

    Unter „Datenschutz → Mikrofon“ Chromium/Safari erlauben, dann Browser-Site-Rechte.

  3. 03

    Automation braucht Bedienhilfen — abstimmen mit Browser-MCP.

  4. 04

    Bildschirmaufnahme nur kurz zum ICE-Korrelieren.

Ergänzt den MLX-Artikel — dort lokale Inferenz, hier WSS/TLS/Relay.

07

Logging-Reihenfolge

Bei gleichzeitig stockenden WS-Frames und Quotenwarnungen: (1) DevTools WS ping/pong, (2) Gateway-JSON mit Session-ID, (3) Proxy-upstream_time, (4) Billing — nicht umgekehrt.

Meshen Sie Browser→Gateway-RTT und Gateway→Live getrennt; globales „Quota erhöhen“ hilft oft nicht.

Operational sollten dokumentiert sein, welche KPI einen Fallback auf Text oder TTS auslösen — nicht erst beim Totalausfall suchen.

Enterprise-TLS-Inspection braucht oft Ausnahmen für dynamische Audio/WebRTC-Pfade — sonst wirken Logs grün, der Duplex stirbt still.

08

FAQ

Nein auf demselben Mikrofonpfad — eine Primär-Session plus dokumentierter Fallback.

Upgrade/Host/Zertifikatskette und Mixed Content vor Credential-Theatern.

Unzureichend — VNC für Chromium-/TCC-Kette einplanen.

Ja — stabile Plugin-/State-Pfade (migrate), dann Relay.

Fazit

Browser-Talk mit Google-Live-Transport ist pingelig bei HTTPS/Relay/TCC — erst wenn diese Ebene sauber ist, lohnen Prompt-Tuning oder Modellfragen.

VNCMac-Remote-Macs kombinieren SSH für Automation und VNC für Mikrofonketten — ideal für gestaffelte Piloten.

Mehr Infos zur Mietseite und zur Startseite; Parallel die Docker-/launchd-/Proxy-Artikel offenhalten.