OpenClaw 2026年4月21日 約 16 分 Gemini TTS Google プラグイン VNC

2026 OpenClaw × Google Gemini TTS
プラグイン有効化から WAV と VNC 検収まで

境界 · マトリクス · 八段階 Runbook · 四指標 · トリアージ · リモート Mac スピーカー

音声合成とクラウド Mac の作業イメージ

すでに OpenClaw を動かしており、2026.4.x 系で「音声で返す」「電話まわりに載せる」ニーズが出てきたチーム向けの記事です。リリースノートでは Google バンドルと Gemini テキスト読み上げ(TTS) が Gateway ログ・チャネル添付・macOS の音声ルーティングと同じ観測線上に載るようになっています。ここでは五つの典型痛点出力形態 × 運用コスト × VNC 要否の表、八段階 Runbookチケットに貼れる四指標SSH と VNC を組み合わせたトリアージ表をまとめます。並行して 《ブラウザ MCP》《Gateway リバースプロキシ》《無応答の切り分け》《マルチモデルルーティング》《組み込み Web 検索》《ディスク整理》 を読むと、クォータ・承認・音声が別スレッドで揉めにくくなります。

01

痛点:音声プラグインで見落としがちな五つ

初めて TTS を載せるチームの問い合わせ頻度順です。運用一年目ならそのままオンボーディング用の一枚に落とせます。

  1. 01

    「HTTP 200」を「ユーザーが聞こえた」と混同する:Gateway 上では合成済みでも、チャネル側が添付を落とす・MIME を誤る・macOS の出力が未接続の Bluetooth を指していると、現場では「無音」と報告されます。VNC で一度だけでもグラフィカルに確認しないと、SSH 上で同じ設定キーを無限にいじることになります。

  2. 02

    WAV/PCM の書き込み増幅:長文と高サンプルレートは数 MB 級の一時ファイルになります。クラウド Mac では DerivedData やキャッシュと競合するため、ディスク整理チェックリストと同じ発想で、週末の一括読み上げジョブ前に空き容量を見ます。

  3. 03

    チャットのレート制限と TTS を同一視する:completion のフォールバックがそのまま音声を守るわけではありません。マルチモデルルーティングの退避順を読まずにいると、「テキストは返るが音声だけ 429 のあと沈黙」という症状が出ます。

  4. 04

    macOS の同意グラフのずれ:ブラウザ MCP と同様、launchd やバックグラウンド実行では、対話的オンボーディングで許可した同意とコンテキストが一致しないことがあります。グラフィカルセッションでしか出ないダイアログを放置すると「一度クリックすれば良いが誰もクリックしない」状態になります。

  5. 05

    公開 Gateway の TLS / Host の未収束:リバースプロキシ記事で TLS と Host を固めないまま TTS のメディア取得先を切り替えると、401 よりタイムアウトが先に出て調査コストが跳ね上がります。音声はバイト数が大きいほど最初に犠牲になります。

上記は机上の空論ではなく、音声をチャットの薄いラッパーだと考えたプロダクトで繰り返し出るパターンです。対処は「より大きい言語モデル」ではなく、音声バイトをサイズ・セキュリティ・保持方針まで含めた一次データとして扱うパイプライン設計です。ステージングと本番でプラグインの on/off、許可する声、1 リクエストあたりの最大秒数、添付を許可するチャネル一覧を一枚にまとめ、週末当番の Runbook の隣に置いておくと四半期ごとの「謎のミュート」再発を防げます。

また、複数リージョンや複数テナントをまたぐ場合は、Google 側のクォータ画面のスクリーンショットを変更チケットに添付し、どのプロジェクト ID で TTS を叩いているかをレビュー時に必ず突き合わせる習慣をつけると、429 の原因が「モデル品質」ではなく「キーの共有ミス」だとすぐ判別できます。

02

マトリクス:出力 × コスト × VNC 初回検収

出力/シーン運用上の注目点VNC 初回メモ
WAV 添付(IM 等)ファイルサイズ、チャネル上限推奨クライアントが WAV を再生できるか確認。必要なら別途トランスコード方針。
PCM/電話ブリッジ系遅延、ジッタバッファ多くの場合ドライバスタックとシステム音声に依存。
ログのみで合成成功を確認クォータ、課金メータ省略可それでも定期的な実聴サンプルは推奨。
ローカルスピーカー試聴出力デバイス、ミュート必須Gateway と同じ GUI ユーザーが最も確実。
ブラウザ MCP と同一トランザクションCDP 子プロセスとオーディオフォーカスケース次第ブラウザ MCP 記事のフォーカス競合に注意。

デーモンを本番相当と呼ぶ前に、VNC で一度「聞こえる」を真にする。

PCM を電話向けに選ぶ場合は、エコーキャンセルやバッファ長の実験にバッファを見込んでください。IM 向けの WAV は多くのクライアントでそのまま再生できますが、サイズとのトレードオフがあります。セキュリティパッチのウィンドウでフォーマットだけ静かに変えないよう、採用理由を設定リポジトリか Runbook に明文化しておくと安全です。

03

八段階 Runbook:doctor から繰り返し読み上げまで

前提として Gateway の基礎が動いていること。完全新規なら公式の openclaw onboard --install-daemon を先に済ませ、第三步から再開してください。

  1. 01

    バージョンとプラグイン一覧:openclaw --versionopenclaw doctor。Google プラグインやメディアに関する行をそのままチケットに貼ります。

  2. 02

    資格情報の分離:openclaw secrets plan の観点で TTS 用キーに明示的な名前を付け、ローテーション時にチャット用と取り違えないようにします。

  3. 03

    最小プラグイン集合:Google 側の TTS 関連スイッチだけを有効にし、長文の前に十語程度のプローブで合成経路を通します。

  4. 04

    形式の固定:サンプルレート、コンテナ(WAV/PCM)、チャネルが許容する MIME を設定ファイルに書き、環境間の「たまたま動く」に依存しません。

  5. 05

    Gateway 証跡:成功例と失敗例それぞれについて、ステータス・レイテンシ・リ試行・上流エラー本文を保存。429 時は即再試行ではなく ルーティング文のバックオフと整合させます。

  6. 06

    VNC スピーカー検収:リモート Mac のサウンド設定でアクティブ出力を確認し、隠れミュートを解除。音量とミュート状態はスクリーンショットを残します。

  7. 07

    チャネル試験送信:サンドボックスの部屋に送り、添付サイズと取得時間を測定。ベンダーごとに上限表を分けます。

  8. 08

    保持と掃除:WAV キャッシュのパス、最大保持時間、手動削除の権限者を文書化し、ディスク監視の閾値と突き合わせます。

第五步と第六步のあいだに、バーストを想定するなら短時間に二十回プローブを打ち、一時ディレクトリの増加とファイルディスクリプタを確認するストレスパスを挟むと、時間課金のクラウド Mac で無駄なループを減らせます。

text
プローブ文(短く、ログのタイムスタンプと対応しやすい):
「OpenClaw TTS プローブ:一二三四五。」

ヒント:Web 検索プラグインと TTS を同時に有効にする場合は Gateway 側の総同時実行とチャネル送信のスロットリングに注意してください。《組み込み Web 検索プラグイン》の承認とクォータのペースと、doctor ログ上のプラグイン読み込み順を突き合わせます。

04

四つの観測指標:チケットにそのまま貼る

  • 観測 1:プローブ文のエンドツーエンド時間(合成+配送)の P95。純テキスト返信の基線と比較し、異常時はクォータとディスク書き込みを先に疑う。
  • 観測 2:連続十次の合成における 429/5xx の回数。0 より大きければ指数バックオフと最大再試行の設定根拠を添付する。
  • 観測 3:単一 WAV ファイルサイズの分布。チャネル上限を超える尾がほぼゼロであること。
  • 観測 4:ノードの空きディスク割合。社内閾値を下回る間は長文の自動朗読のような機能を禁止する。

数値にオーナーがいないと腐ります。月ごとに指標ごとに名前付きオンコールを割り当て、可能ならスクリーンショットではなくダッシュボード URL をチケットに貼ってください。自動化前は CSV を同梱する運用でも構いません。

注意:「無音」だけを見てベンダーに電話する前に、本節のトリアージ表まで踏んでください。さもないと高価な「モデルが悪い」という誤結論を買わされます。

05

典型失敗の順序立て(SSH ログ + VNC 目視)

《よくあるエラーと十の解決》の分流と同じで、まず転送と資格情報、次にディスクと形式、最後に音質です。

現象先に見るものVNC 側のアクション
ログは成功だがチャットが無音添付 MIME・サイズ・チャネル API エラーテストクライアントで WAV を手動ダウンロードして再生。
偶発 429クォータ、キー共有の有無コンソールのクォータ画面をスクリーンショット。
ローカル試聴がカクつくCPU 争奪、ブラウザ MCP 同時実行アクティビティモニタでピークを確認し、ジョブをずらす。
書き込み失敗ディスク満杯、権限、サンドボックスパスFinder で対象ボリュームの空きを確認。

詰まったら Gateway・チャネルの Webhook・リバースプロキシのアクセスログの時刻を突き合わせます。NTP のずれは幽霊相関を生むので先に直し、同じ分単位でプローブ文を再実行してログ行を揃えます。深夜デプロイ後にキーをローテした場合は、対話シェルのプロファイルではなく実際に Gateway を起動している launchd の plist に新しいシークレットが入っているかを確認してください。ここがズレると「ログは綺麗だが無音」が再発します。

関連記事

サイト内の長文

FAQ

よくある質問

合成リクエストは Google 側への外向き到達性が必要です。自前のリスナーを公開するかどうかは別問題で、リバースプロキシ記事に沿って受信面を絞れます。

テキストと音声はレールを分けるのが無難です。観測ダッシュボードは共有しても、TTS 失敗を「より大きいチャットモデル」へ盲目的に逃がすとコストと遅延構造が壊れます。

検収はWAV をローカルに落として再生する、またはスペクトルやファイルサイズ曲線で代替しても構いません。ポイントは「ログだけ見てビットを見ない」状態を避けることです。

結び

音声は資格情報・合成・ディスク・Gateway・チャネル方針・OS の音声状態の積です。どれかがゼロなら、ログが健診でもユーザー体感はゼロになります。SSH で INFO 行だけ見て、Gateway と同じユーザーのグラフィカルセッションで一度もスピーカーを確認しないと、帰属のない「ミュート事故」に工数が吸われます。

常時稼働の音声ゲートウェイをデスク上の Mac で回すと、スリープ・OS アップデート・ハードの経年劣化まで背負います。クラウド Mac をレンタルし、SSH と計画的な VNC 検収を組み合わせると、イメージとオンライン率はプロバイダに任せつつ、秘密と Runbook は手元に置けます。

グラフィカル検証をケチって浮いたつもりのチームほど、幻聴のない「無音」デバッグに時間を溶かしがちです。チェックリストは安い保険です。本文の手順に沿った macOS デスクトップが手元に無い場合は VNCMac でノードを借りられます。主ボタンは 購入・申込ページ、プラン比較は トップページ からどうぞ。