境界 · マトリクス · 八段階 Runbook · 四指標 · トリアージ · リモート Mac スピーカー
すでに OpenClaw を動かしており、2026.4.x 系で「音声で返す」「電話まわりに載せる」ニーズが出てきたチーム向けの記事です。リリースノートでは Google バンドルと Gemini テキスト読み上げ(TTS) が Gateway ログ・チャネル添付・macOS の音声ルーティングと同じ観測線上に載るようになっています。ここでは五つの典型痛点、出力形態 × 運用コスト × VNC 要否の表、八段階 Runbook、チケットに貼れる四指標、SSH と VNC を組み合わせたトリアージ表をまとめます。並行して 《ブラウザ MCP》、《Gateway リバースプロキシ》、《無応答の切り分け》、《マルチモデルルーティング》、《組み込み Web 検索》、《ディスク整理》 を読むと、クォータ・承認・音声が別スレッドで揉めにくくなります。
初めて TTS を載せるチームの問い合わせ頻度順です。運用一年目ならそのままオンボーディング用の一枚に落とせます。
「HTTP 200」を「ユーザーが聞こえた」と混同する:Gateway 上では合成済みでも、チャネル側が添付を落とす・MIME を誤る・macOS の出力が未接続の Bluetooth を指していると、現場では「無音」と報告されます。VNC で一度だけでもグラフィカルに確認しないと、SSH 上で同じ設定キーを無限にいじることになります。
WAV/PCM の書き込み増幅:長文と高サンプルレートは数 MB 級の一時ファイルになります。クラウド Mac では DerivedData やキャッシュと競合するため、ディスク整理チェックリストと同じ発想で、週末の一括読み上げジョブ前に空き容量を見ます。
チャットのレート制限と TTS を同一視する:completion のフォールバックがそのまま音声を守るわけではありません。マルチモデルルーティングの退避順を読まずにいると、「テキストは返るが音声だけ 429 のあと沈黙」という症状が出ます。
macOS の同意グラフのずれ:ブラウザ MCP と同様、launchd やバックグラウンド実行では、対話的オンボーディングで許可した同意とコンテキストが一致しないことがあります。グラフィカルセッションでしか出ないダイアログを放置すると「一度クリックすれば良いが誰もクリックしない」状態になります。
公開 Gateway の TLS / Host の未収束:リバースプロキシ記事で TLS と Host を固めないまま TTS のメディア取得先を切り替えると、401 よりタイムアウトが先に出て調査コストが跳ね上がります。音声はバイト数が大きいほど最初に犠牲になります。
上記は机上の空論ではなく、音声をチャットの薄いラッパーだと考えたプロダクトで繰り返し出るパターンです。対処は「より大きい言語モデル」ではなく、音声バイトをサイズ・セキュリティ・保持方針まで含めた一次データとして扱うパイプライン設計です。ステージングと本番でプラグインの on/off、許可する声、1 リクエストあたりの最大秒数、添付を許可するチャネル一覧を一枚にまとめ、週末当番の Runbook の隣に置いておくと四半期ごとの「謎のミュート」再発を防げます。
また、複数リージョンや複数テナントをまたぐ場合は、Google 側のクォータ画面のスクリーンショットを変更チケットに添付し、どのプロジェクト ID で TTS を叩いているかをレビュー時に必ず突き合わせる習慣をつけると、429 の原因が「モデル品質」ではなく「キーの共有ミス」だとすぐ判別できます。
| 出力/シーン | 運用上の注目点 | VNC 初回 | メモ |
|---|---|---|---|
| WAV 添付(IM 等) | ファイルサイズ、チャネル上限 | 推奨 | クライアントが WAV を再生できるか確認。必要なら別途トランスコード方針。 |
| PCM/電話ブリッジ系 | 遅延、ジッタバッファ | 多くの場合 | ドライバスタックとシステム音声に依存。 |
| ログのみで合成成功を確認 | クォータ、課金メータ | 省略可 | それでも定期的な実聴サンプルは推奨。 |
| ローカルスピーカー試聴 | 出力デバイス、ミュート | 必須 | Gateway と同じ GUI ユーザーが最も確実。 |
| ブラウザ MCP と同一トランザクション | CDP 子プロセスとオーディオフォーカス | ケース次第 | ブラウザ MCP 記事のフォーカス競合に注意。 |
デーモンを本番相当と呼ぶ前に、VNC で一度「聞こえる」を真にする。
PCM を電話向けに選ぶ場合は、エコーキャンセルやバッファ長の実験にバッファを見込んでください。IM 向けの WAV は多くのクライアントでそのまま再生できますが、サイズとのトレードオフがあります。セキュリティパッチのウィンドウでフォーマットだけ静かに変えないよう、採用理由を設定リポジトリか Runbook に明文化しておくと安全です。
前提として Gateway の基礎が動いていること。完全新規なら公式の openclaw onboard --install-daemon を先に済ませ、第三步から再開してください。
バージョンとプラグイン一覧:openclaw --version と openclaw doctor。Google プラグインやメディアに関する行をそのままチケットに貼ります。
資格情報の分離:openclaw secrets plan の観点で TTS 用キーに明示的な名前を付け、ローテーション時にチャット用と取り違えないようにします。
最小プラグイン集合:Google 側の TTS 関連スイッチだけを有効にし、長文の前に十語程度のプローブで合成経路を通します。
形式の固定:サンプルレート、コンテナ(WAV/PCM)、チャネルが許容する MIME を設定ファイルに書き、環境間の「たまたま動く」に依存しません。
Gateway 証跡:成功例と失敗例それぞれについて、ステータス・レイテンシ・リ試行・上流エラー本文を保存。429 時は即再試行ではなく ルーティング文のバックオフと整合させます。
VNC スピーカー検収:リモート Mac のサウンド設定でアクティブ出力を確認し、隠れミュートを解除。音量とミュート状態はスクリーンショットを残します。
チャネル試験送信:サンドボックスの部屋に送り、添付サイズと取得時間を測定。ベンダーごとに上限表を分けます。
保持と掃除:WAV キャッシュのパス、最大保持時間、手動削除の権限者を文書化し、ディスク監視の閾値と突き合わせます。
第五步と第六步のあいだに、バーストを想定するなら短時間に二十回プローブを打ち、一時ディレクトリの増加とファイルディスクリプタを確認するストレスパスを挟むと、時間課金のクラウド Mac で無駄なループを減らせます。
プローブ文(短く、ログのタイムスタンプと対応しやすい): 「OpenClaw TTS プローブ:一二三四五。」
ヒント:Web 検索プラグインと TTS を同時に有効にする場合は Gateway 側の総同時実行とチャネル送信のスロットリングに注意してください。《組み込み Web 検索プラグイン》の承認とクォータのペースと、doctor ログ上のプラグイン読み込み順を突き合わせます。
数値にオーナーがいないと腐ります。月ごとに指標ごとに名前付きオンコールを割り当て、可能ならスクリーンショットではなくダッシュボード URL をチケットに貼ってください。自動化前は CSV を同梱する運用でも構いません。
注意:「無音」だけを見てベンダーに電話する前に、本節のトリアージ表まで踏んでください。さもないと高価な「モデルが悪い」という誤結論を買わされます。
《よくあるエラーと十の解決》の分流と同じで、まず転送と資格情報、次にディスクと形式、最後に音質です。
| 現象 | 先に見るもの | VNC 側のアクション |
|---|---|---|
| ログは成功だがチャットが無音 | 添付 MIME・サイズ・チャネル API エラー | テストクライアントで WAV を手動ダウンロードして再生。 |
| 偶発 429 | クォータ、キー共有の有無 | コンソールのクォータ画面をスクリーンショット。 |
| ローカル試聴がカクつく | CPU 争奪、ブラウザ MCP 同時実行 | アクティビティモニタでピークを確認し、ジョブをずらす。 |
| 書き込み失敗 | ディスク満杯、権限、サンドボックスパス | Finder で対象ボリュームの空きを確認。 |
詰まったら Gateway・チャネルの Webhook・リバースプロキシのアクセスログの時刻を突き合わせます。NTP のずれは幽霊相関を生むので先に直し、同じ分単位でプローブ文を再実行してログ行を揃えます。深夜デプロイ後にキーをローテした場合は、対話シェルのプロファイルではなく実際に Gateway を起動している launchd の plist に新しいシークレットが入っているかを確認してください。ここがズレると「ログは綺麗だが無音」が再発します。
権限、CDP 子プロセス、Gateway 同機での検収の考え方。
読む →TLS、Host、WebSocket と公開面の最小構成。
読む →静かな失敗とログ順序。TTS 問題と取り違えない。
読む →合成リクエストは Google 側への外向き到達性が必要です。自前のリスナーを公開するかどうかは別問題で、リバースプロキシ記事に沿って受信面を絞れます。
テキストと音声はレールを分けるのが無難です。観測ダッシュボードは共有しても、TTS 失敗を「より大きいチャットモデル」へ盲目的に逃がすとコストと遅延構造が壊れます。
検収はWAV をローカルに落として再生する、またはスペクトルやファイルサイズ曲線で代替しても構いません。ポイントは「ログだけ見てビットを見ない」状態を避けることです。
音声は資格情報・合成・ディスク・Gateway・チャネル方針・OS の音声状態の積です。どれかがゼロなら、ログが健診でもユーザー体感はゼロになります。SSH で INFO 行だけ見て、Gateway と同じユーザーのグラフィカルセッションで一度もスピーカーを確認しないと、帰属のない「ミュート事故」に工数が吸われます。
常時稼働の音声ゲートウェイをデスク上の Mac で回すと、スリープ・OS アップデート・ハードの経年劣化まで背負います。クラウド Mac をレンタルし、SSH と計画的な VNC 検収を組み合わせると、イメージとオンライン率はプロバイダに任せつつ、秘密と Runbook は手元に置けます。
グラフィカル検証をケチって浮いたつもりのチームほど、幻聴のない「無音」デバッグに時間を溶かしがちです。チェックリストは安い保険です。本文の手順に沿った macOS デスクトップが手元に無い場合は VNCMac でノードを借りられます。主ボタンは 購入・申込ページ、プラン比較は トップページ からどうぞ。