OpenClaw 2026年4月28日 約 18 分鐘 Talk Mode MLX

2026 OpenClaw v2026.4.10–4.11
Talk Mode · MLX · 麥克風怎麼一次驗收到位

邊界說明 · 決策矩陣 · 八步 Runbook · 工單結語 · FAQ · 站內互鏈

遠端 Mac 語音互動示意

已在遠端 Mac 上跑通 OpenClaw、想把 Talk Mode 語音對談當正式產能的中高階維運,在 v2026.4.10 會遇到可選的 實驗性本機 MLX 語音提供者v2026.4.11 則把「首次允許麥克風後還得再撥一次 Talk 開關」這類體感斷點收斂掉。兩版都沒有動到一個硬前提:使用者仍須在有選單列、可開「系統設定」的那個圖形工作階段完成隱私同意。只靠終端機遠端連線,很容易把無聲誤判成模型沒回應。本篇先劃清 Talk Mode 與 Gemini TTS 外掛Voice Wake 及 /tasks 任務板 的職責邊界,接著給 版本與前置條件對照表從 Gateway 主控台一路點到麥克風清單的八步 Runbook四條可直接貼進工單結語欄的句子,以及 症狀優先序簡表。並與 無回覆/靜默失敗排查v2026.4.25 冷持久化註冊表與混合 Gateway 互鏈,避免語音單線與升級專案脫鉤。

01

痛點:為何「文字有、聲音沒有」會反覆出現

Talk Mode 同時綁定 Gateway 是否連線穩定桌面端音訊路由麥克風 TCC,以及 您選定的語音提供者(含 MLX 實驗路徑)。在租賃或池化節點上,真正的隱形成本往往來自:用 SSH 把處理序拉起,卻沒排定 VNC 時段去點同意;把 MLX 首次下載誤認為當機而反覆重装;或是拿 WAV 外掛驗收表 來要求 Talk 即时播放,開錯票。下列五點可直接貼入事故分類,幫下游團隊對齊語言。

  1. 01

    通道混用:拾音與播放都走 macOS 桌面音訊堆疊;若 VNC 用戶端預設靜音、或藍牙耳機切換了設定,日誌仍可能顯示「已合成」。

  2. 02

    實驗提供者:MLX 對晶片世代、記憶體與首次模型拉取十分敏感;冷啟動被誤判為卡死之前,務必先跑一輪 非 MLX 基線煙測

  3. 03

    版本組合:CLI 與 Gateway 若混版,主控台里的 Talk 開關狀態可能短暫與真實行為不一致——應先做 混合版本核驗

  4. 04

    與 Voice Wake 混淆:Voice Wake 解的是「免持喚醒 Talk」這個入口;本文聚焦會話內語音鏈路與麥克風授權,設定面不同,可併讀 4.1 長文

  5. 05

    排查順序錯置:未先在系統設定確認麥克風清單出現正確二進位路徑,就去改模型路由,只會拉長 MTTR。

把上述背景寫進值更手冊,可減少「某人本機可以、遠端不行」這類難以稽核的描述。語音事故本質上是圖形工作階段+網路+本機資源三者的交集,而不是單一參數能救回的問題。

02

決策矩陣:Talk+MLX 與其他語音能力

在轉發給「只想快點出聲」的業務方之前,先對齊邊界,才能避免把「用 Talk 匯出長語音 WAV」這類走錯通道的需求寫進規格,或把 cron 朗讀硬塞進 Talk。

能力主要用途典型依賴與本文關係
Talk Mode+MLX(4.10+)會話內語音對談、實驗性本機播放麥克風、音訊輸出、Gateway、可選 MLX 資源全文主線
Gemini TTS 外掛依工具鏈產生 WAV/語音回覆外掛金鑰、工具白名單、工作階段策略互鏈對照,非同一套 Runbook
Voice Wake(4.1)免持喚起 Talk Mode麥克風、系統語音權限、常駐設定入口相鄰,設定獨立
Heartbeat/排程巡檢與輕量自動化cron、工具白名單、日誌紀律除非確認 靜默失敗,否則勿與 Talk 混排

一句話:要在看得到選單列與「系統設定」的那條工作階段裡,把同意與輸出一併驗收。

維運文件可規定必截的三張圖:Gateway Network、Talk 相關設定、以及「隱私權與安全性 → 麥克風」頁。系統升級後若殘留舊路徑造成重複條目,應先清理再重啟應用程式,讓同意視窗能重新出現。

03

八步 Runbook:從版本凍結到可回滾證據包

下列順序假設您能以 VNC 開啟圖形桌面,且帳號與實際執行 OpenClaw 的 macOS 使用者一致;若為共享租戶,請在工單載明「授權責任人」,避免輪值時互相覆寫權限狀態。

  1. 01

    凍結版本:記錄 openclaw --version 與 Gateway 組建資訊;若卡在「授權後還要再開一次」類體感,優先計畫到 ≥4.11。

  2. 02

    備份設定:打包工作空間與 ~/.openclaw(或團隊規範路徑);任何 Talk 相關變更都應可回滾。

  3. 03

    啟動/重啟 Gateway:在 VNC 下開啟主控台頁面,確認 18789(或您環境埠號)健康檢查與 WebSocket 正常。

  4. 04

    啟用 Talk Mode:按產品介面打開 Talk;若可選,先以非 MLX路徑做基線煙測,再切 MLX,藉此隔離「模型載入慢」與「權限」兩條問題鏈。

  5. 05

    系統設定 → 隱私權與安全性 → 麥克風:確認 OpenClaw 相關二進位已列出且勾選;刪除過時路徑後重開應用以觸發提示。

  6. 06

    驗證 4.11 行為:首次授權後應能連續啟動 Talk而無需再次撥動開關;若仍異常,蒐集主控台與系統日誌時段。

  7. 07

    播放驗收:以短句往返各一輪,確認本機播放無爆音、無卡死;記錄 CPU/記憶體峰值作容量基線。

  8. 08

    回滾包:匯出 Gateway Network 面板截圖、Talk 設定片段、麥克風清單截圖與版號,打成 zip 附工單。

checklist
驗收探針(示例):
1) VNC 工作階段中「麥克風」頁:OpenClaw 相關項為開啟
2) Talk 開啟 → 短句上行 → 下行語音可聽且與字幕大致同步
3) 切換 MLX 提供者後重複 2),記錄首次延遲是否落在預算內

提示:若團隊禁用實驗特性,可在設定層明確關閉 MLX,僅保留穩定語音路徑;變更單写明風險承擔者。

八步固定成模板,有助于夜間值班:任何人接手都能從工單看出「卡在哪一格」。zip 檔名建議含日期、主機代號與操作帳號,方便日後稽核或跨團隊複盤。

04

可引用資訊:四條工單結語

  • 結論 1:Talk Mode 的「有聲」依賴系統麥克風同意+正確輸出裝置,與「模型是否最強」無必然關係。
  • 結論 2:v2026.4.11 修的是授權後延續啟動類缺陷;不代替在 VNC 裡完成首次麥克風同意。
  • 結論 3:MLX 若列實驗路徑,工單應另列冷啟動耗時與記憶體尖峰,勿與 SLA 口徑混談。
  • 結論 4:與 TTS 外掛並行啟用時,採不同驗收表,勿以 WAV 檢查套用到即時會話。

注意:於共享租賃節點長時間開啟麥克風,可能觸及內規;請最小化啟用並保留稽核軌跡。

05

常見失敗與日誌順序(簡表)

遇到「無聲音」時,建議順序:系統麥克風清單 → Gateway 日誌 → Talk provider 切換 → 再考慮模型路由。若同時存在「訊息送出卻無文字」,請改走 無回覆排查 的另一張表,勿讓兩條問題鏈交叉改設定。

現象優先檢查次選
完全無聲、字幕正常輸出裝置/VNC 用戶端靜音Talk provider 是否載入失敗
首次授權子 Talk 起不來(<4.11)升級 4.11+或暫時重開關Gateway 與 CLI 版本是否混用
MLX 首次極慢冷啟動與資源尖峰改非 MLX 基線對照
麥克風清單無 OpenClaw是否從圖形工作階段啟動過拾音路徑二進位路徑是否重複/殘留

簡表看似精簡,實務上若能在日誌附上時戳、視窗標題與 VNC 客戶端型號,對跨時區協作極有幫助。尤其是藍牙耳機與聚合裝置切換時,最容易出現「字幕有、聲音無」的假陽性。

延伸閱讀

站內相關長文

FAQ

常見問題

不是。TTS 外掛面向工具化語音合成與檔案型輸出;Talk Mode 面向會話內即時鏈路。設定、日誌關鍵字與回滾策略都不同。

修的是應用程式內狀態機;系統仍要求使用者在圖形介面完成麥克風同意。沒有 VNC 就很難留下可稽核佐證。

系統輸出與 VNC 用戶端靜音 → 麥克風清單 → Gateway 日誌 → provider 切換;仍異常再並行開啟無回覆長文,對照 heartbeat/thinking。

結語

語音能力讓 OpenClaw 從「只看文字」跨到「可聽可說」,但也把維運邊界擴到桌面音訊與 macOS 隱私模型——這條鏈路從設計上就不是純 SSH 能獨力收斂的。若團隊長期不為租賃節點保留可排程的 VNC 視窗,隱形成本會攤在更長的 MTTR、反覆重灌與難以複現的「某人機器上可以」

自有 Mac 同樣面對藍牙耳機切換、系統更新後權限回退、以及多使用者共享;在遠端池化環境,還會疊加映像版本與混合 Gateway變數。相較之下,具圖形工作階段入口的遠端 Mac讓您能把「麥克風清單截圖+Gateway Network 面板」寫進標準驗收,而非靠臨場發揮。

若您希望按專案取得便於執行本文八步、並能對照站內多篇 OpenClaw 長文做核驗的節點,可透過 VNCMac 下單:主按鈕進入購買頁;需要連線說明時併開遠端連線說明首頁選型。