OpenClaw 2026년 4월 21일 약 16분 Gemini TTS Google 플러그인 VNC

2026 OpenClaw × Google Gemini TTS
플러그인 활성화, WAV/PCM, VNC 스피커 검수

경계 · 매트릭스 · 8단계 런북 · 네 지표 · 트리아지 · 원격 Mac 스피커

음성 합성과 클라우드 Mac 작업 환경

이미 OpenClaw를 돌리고 있고 2026.4.x 계열에서「말로 답한다」「전화·통화 시나리오에 올린다」는 요구가 생긴 팀을 위한 글입니다. 릴리스 노트에서는 Google 번들과 Gemini 텍스트 음성(TTS)가 Gateway 로그·채널 첨부 한도·macOS 오디오 라우팅과 같은 관측 축에 올라와 있습니다. 여기서는 다섯 가지 전형적인 통증, 출력 형태 × 운영 비용 × VNC 필요 여부 표, 8단계 런북, 티켓에 붙일 네 가지 지표, SSH 로그와 VNC를 함께 쓰는 트리아지 표를 정리합니다. 동시에 《브라우저 MCP》, 《Gateway 역방향 프록시》, 《무응답 점검》, 《다중 모델 라우팅》, 《내장 웹 검색 플러그인》, 《디스크 정리》를 읽으면 쿼터·승인·오디오가 서로 다른 스레드에서 싸우지 않게 됩니다.

01

통증: 음성 플러그인에서 놓치기 쉬운 다섯 가지

처음 TTS를 붙이는 팀의 문의 빈도 순입니다. 일 년 넘게 운영했다면 내부 온보딩 한 장으로 압축해도 됩니다.

  1. 01

    「HTTP 200」을「사용자가 들었다」와 동일시하기: Gateway 로그에는 합성이 찍혀도 채널이 첨부를 떨어뜨리거나 MIME이 어긋나거나 macOS 출력이 연결 끊긴 블루투스를 가리키면 현장에서는「무음」으로 보고됩니다. VNC로 그래픽 세션을 한 번이라도 확인하지 않으면 SSH에서 같은 설정 키만 무한 반복하게 됩니다.

  2. 02

    WAV/PCM 쓰기 증폭: 긴 문장과 높은 샘플레이트는 수 MB 급 임시 파일을 만듭니다. 클라우드 Mac SSD는 이미 DerivedData·캐시와 싸우므로 디스크 정리 체크리스트와 같은 마음가짐으로 주말 일괄 읽기 전에 여유 공간을 봅니다.

  3. 03

    채팅 레이트 제한과 TTS를 한 덩어리로 보기: completion 폴백이 음성 엔드포인트를 자동으로 지켜 주지 않습니다. 다중 모델 라우팅 글의 백오프 순서를 읽지 않으면「텍스트는 오는데 음성만 429 뒤 침묵」이 납니다.

  4. 04

    macOS 동의 그래프 어긋남: 브라우저 MCP와 같습니다. launchd·백그라운드 실행은 대화형 온보딩에서 허용한 동의와 맥락이 다를 수 있고, 그래픽에서만 뜨는 대화상자를 놓치면「한 번 클릭하면 되는데 아무도 클릭하지 않는」교착이 됩니다.

  5. 05

    공개 Gateway의 TLS·Host 미정리: 역방향 프록시 글에서 TLS와 Host를 고정하기 전에 TTS 미디어 URL만 바꾸면 401보다 타임아웃이 먼저 나와 조사 비용이 커집니다. 바이트가 큰 음성이 먼저 희생됩니다.

위 항목은 가설이 아니라 음성을 채팅 프롬프트의 얇은 래퍼로 취급한 제품에서 반복됩니다. 해법은 더 큰 언어 모델이 아니라 오디오 바이트를 크기·보안·보존까지 포함한 일급 산출물로 다루는 파이프라인입니다. 스테이징과 본에서 플러그인 on/off·허용 음성·요청당 최대 길이·첨부를 허용할 채널 목록을 한 페이지에 두고 주말 담당 런북 옆에 두면 분기마다 돌아오는「미스터리 뮤트」를 줄입니다.

여러 리전·테넌트를 넘나들면 Google 쿼터 콘솔 캡처를 변경 티켓에 붙이고 어떤 프로젝트 ID로 TTS를 치는지 리뷰 때마다 대조하는 습관을 들이면, 429 원인이「모델 품질」이 아니라「키 공유 실수」인지 빨리 갈립니다.

02

매트릭스: 출력 × 비용 × VNC 1차 검수

출력·시나리오운영 초점VNC 1차비고
WAV 첨부(IM 등)파일 크기·채널 상한권장클라이언트가 WAV를 재생하는지 확인. 필요 시 별도 트랜스코딩 정책.
PCM·전화 브리지지터 버퍼대부분드라이버·시스템 오디오에 더 의존.
로그만으로 합성 성공쿼터·과금 미터생략 가능그래도 주기적 실청 샘플은 권장.
로컬 스피커 스모크기본 장치·음소거필수Gateway와 같은 GUI 사용자가 가장 안정적.
브라우저 MCP와 동일 트랜잭션CDP 자식 프로세스·오디오 포커스경우에 따라브라우저 MCP 글의 포커스 경합을 참고.

데몬을 프로덕션급이라 부르기 전에 VNC에서 한 번「들린다」를 진실로 만든다.

PCM을 전화 스타일로 고르면 에코 캔슬레이션·버퍼 길이 실험에 시간을 더 잡으세요. IM용 WAV는 대부분의 클라이언트가 바로 재생하지만 크기와 맞바꿉니다. 보안 패치 창에 포맷만 조용히 바꾸지 않도록, 채택 이유를 설정 저장소나 런북에 문서화해 두는 것이 안전합니다.

03

8단계 런북: doctor부터 반복 읽기까지

Gateway 기본이 이미 동작한다는 전제입니다. 완전 신규라면 공식 openclaw onboard --install-daemon을 먼저 끝내고 세 번째 단계부터 돌아오세요.

  1. 01

    버전·플러그인 목록: openclaw --versionopenclaw doctor에서 Google·미디어 관련 줄을 티켓에 그대로 붙입니다.

  2. 02

    비밀 분리: openclaw secrets plan 관점에서 TTS 키에 명시적 이름을 붙여 로테이션 시 채팅용과 바꿔 끼우지 않습니다.

  3. 03

    최소 플러그인 면: Google TTS에 필요한 스위치만 켜고, 장문 전에 짧은 탐침 문장으로 합성 경로를 통과시킵니다.

  4. 04

    형식 고정: 샘플레이트·컨테이너(WAV/PCM)·채널이 허용하는 MIME을 설정에 두고 환경마다「우연히 맞는」기본값에 의존하지 않습니다.

  5. 05

    Gateway 증거: 성공·실패 각각에 대해 상태·지연·재시도·상류 오류 본문을 저장합니다. 429일 때는 즉시 재시도 대신 라우팅 글의 백오프와 맞춥니다.

  6. 06

    VNC 스피커 검수: 원격 Mac 사운드에서 활성 출력을 확인하고 숨은 음소거를 해제합니다. 볼륨·음소거는 스크린샷을 남깁니다.

  7. 07

    채널 드라이런: 샌드박스 방에 보내 첨부 크기·다운로드 시간을 재고, 벤더별 상한 표를 나눕니다.

  8. 08

    보존·정리: WAV 캐시 경로·최대 보관·수동 삭제 권한자를 문서화하고 디스크 가드레일과 연결합니다.

다섯 번째와 여섯 번째 사이에 버스트를 예상하면 짧은 시간에 스무 번 탐침을 쏘고 임시 디렉터리 증가와 파일 디스크립터를 보는 스트레스 패스를 넣으면 시간제 클라우드 Mac에서 불필요한 루프를 줄입니다.

text
탐침 문장(짧고 로그 타임스탬프와 맞추기 쉬움):
「OpenClaw TTS 탐침: 하나 둘 셋 넷 다섯.」

팁: 내장 웹 검색 플러그인과 TTS를 함께 켜면 Gateway의 총 동시성과 채널 전송 스로틀에 유의하세요. 《내장 웹 검색 플러그인》의 승인·쿼터 리듬과 doctor 로그의 플러그인 로드 순서를 맞춰 봅니다.

04

네 가지 티켓 지표

  • 지표 1: 탐침 문장의 합성·배달을 포함한 엔드투엔드 P95. 순수 텍스트 기준과 비교하고 이상 시 쿼터·디스크 쓰기를 먼저 의심합니다.
  • 지표 2: 연속 열 번 합성에서 429/5xx 횟수. 0보다 크면 지수 백오프·최대 재시도 설정 근거를 첨부합니다.
  • 지표 3: 단일 WAV 크기 분포 히스토그램. 채널 한도를 넘는 꼬리가 거의 0이어야 합니다.
  • 지표 4: 노드의 남은 디스크 비율. 내부 임계값 아래에서는 긴 글 자동 낭독 같은 기능을 막습니다.

숫자에 담당자가 없으면 썩습니다. 지표별로 월 단위 이름 있는 온콜을 붙이고 가능하면 스크린샷 대신 대시보드 URL을 티켓에 넣으세요. 자동화 전에는 CSV를 첨부하는 것도 방법입니다.

주의:「무음」만 보고 벤더에 전화하기 전에 이 절의 트리아지 표까지 밟으세요. 그렇지 않으면 비싼「모델이 나쁘다」는 오진을 삽니다.

05

순서 있는 트리아지(SSH 로그 + VNC)

《자주 나는 오류 10가지 해결》과 같이 먼저 전송·자격, 다음 디스크·형식, 마지막에 음질입니다.

증상먼저 볼 것VNC 조치
로그는 성공인데 채널이 무음첨부 크기·MIME·채널 API 오류테스트 클라이언트로 WAV 수동 다운로드·재생.
간헐 429쿼터·키 공유 여부콘솔 쿼터 화면 캡처.
로컬 재생 끊김CPU 경합·브라우저 MCP 동시활성 상태 모니터에서 스파이크·시간 분산.
쓰기 실패디스크 만·권한·샌드박스 경로Finder로 대상 볼륨 여유 공간.

막히면 Gateway·채널 웹훅·역방향 프록시 액세스 로그의 시각을 맞춥니다. NTP 어긋남은 유령 상관을 만듭니다. 먼저 고치고 같은 분 단위로 탐침 문을 다시 쏴 로그 줄을 맞춥니다. 자정 배포 후 API 키를 돌렸다면 대화형 셸 프로필이 아니라 실제로 Gateway를 띄우는 launchd plist에 새 시크릿이 들어갔는지 확인하세요. 여기서 어긋나면「로그는 깨끗한데 무음」이 재발합니다.

더 읽기

사이트 관련 글

FAQ

자주 묻는 질문

합성 요청은 Google 측으로의 아웃바운드 도달이 필요합니다. 자체 리스너를 공개할지는 별개이며 역방향 프록시 글에 따라 수신면을 줄이면 됩니다.

텍스트와 음성은 레일을 나누는 편이 안전합니다. 대시보드는 공유해도 TTS 실패를 더 큰 채팅 모델로 무작정 넘기면 비용·지연 구조가 깨집니다.

검수는 WAV를 로컬로 내려받아 재생하거나 스펙트럼·파일 크기 곡선으로 대체해도 됩니다. 핵심은「로그만 보고 비트는 안 본다」상태를 피하는 것입니다.

맺음말

음성은 자격·합성·디스크·Gateway·채널 정책·OS 오디오 상태의 곱입니다. 어느 하나가 0이면 로그가 건강해도 사용자 체감은 0입니다. SSH에서 INFO 줄만 보고 Gateway와 같은 사용자의 그래픽 세션에서 스피커를 한 번도 확인하지 않으면 소유자 없는「음소거 사고」에 공수가 빨립니다.

상시 음성 노드를 책상 위 Mac에서 돌리면 절전·OS 업데이트·하드 감가까지 떠안습니다. 클라우드 Mac을 임대하고 SSH와 계획된 VNC 검수를 섞으면 가동·이미지는 서비스에 맡기고 비밀·런북은 손에 남습니다.

그래픽 검증을 아끼려는 팀일수록 원인 없는「무음」에디버깅 시간을 녹입니다. 체크리스트는 싼 보험입니다. 이 글과 맞는 macOS 데스크톱이 없다면 VNCMac으로 노드를 쓰세요. 주 버튼은 구매 페이지, 플랜 비교는 으로 이동합니다.