Documentation Index
Fetch the complete documentation index at: https://openclawhub.vn/llms.txt
Use this file to discover all available pages before exploring further.
Chế độ Talk
Chế độ Talk là một vòng lặp hội thoại giọng nói liên tục:- Nghe giọng nói
- Gửi bản ghi âm đến mô hình (phiên chính, chat.send)
- Chờ phản hồi
- Phát lại qua ElevenLabs (phát trực tuyến)
Hành vi (macOS)
- Luôn hiển thị khi chế độ Talk được bật.
- Chuyển pha Nghe → Suy nghĩ → Nói.
- Khi có khoảng dừng ngắn (cửa sổ im lặng), bản ghi hiện tại sẽ được gửi đi.
- Phản hồi được viết vào WebChat (giống như khi gõ).
- Ngắt quãng khi có giọng nói (mặc định bật): nếu người dùng bắt đầu nói khi trợ lý đang nói, chúng tôi sẽ dừng phát và ghi lại thời điểm ngắt quãng cho lần nhắc tiếp theo.
Chỉ thị giọng nói trong phản hồi
Trợ lý có thể thêm một dòng JSON để điều khiển giọng nói:- Chỉ dòng không rỗng đầu tiên.
- Bỏ qua các khóa không xác định.
once: truechỉ áp dụng cho phản hồi hiện tại.- Nếu không có
once, giọng nói sẽ trở thành mặc định mới cho chế độ Talk. - Dòng JSON sẽ bị loại bỏ trước khi phát TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Cấu hình (~/.openclaw/openclaw.json)
interruptOnSpeech: truesilenceTimeoutMs: nếu không đặt, Talk giữ cửa sổ dừng mặc định của nền tảng trước khi gửi bản ghi (700 ms trên macOS và Android, 900 ms trên iOS)voiceId: mặc định làELEVENLABS_VOICE_ID/SAG_VOICE_ID(hoặc giọng ElevenLabs đầu tiên khi có khóa API)modelId: mặc định làeleven_v3nếu không đặtapiKey: mặc định làELEVENLABS_API_KEY(hoặc hồ sơ shell gateway nếu có)outputFormat: mặc định làpcm_44100trên macOS/iOS vàpcm_24000trên Android (đặtmp3_*để buộc phát trực tuyến MP3)
Giao diện macOS
- Chuyển đổi trên thanh menu: Talk
- Tab cấu hình: nhóm Chế độ Talk (id giọng nói + chuyển đổi ngắt quãng)
- Overlay:
- Nghe: đám mây nhấp nháy với mức mic
- Suy nghĩ: hoạt ảnh chìm
- Nói: vòng tròn phát ra
- Nhấp vào đám mây: dừng nói
- Nhấp vào X: thoát chế độ Talk
Lưu ý
- Yêu cầu quyền Trợ lý giọng nói + Microphone.
- Sử dụng
chat.sendvới khóa phiênmain. - TTS sử dụng API phát trực tuyến của ElevenLabs với
ELEVENLABS_API_KEYvà phát lại từng phần trên macOS/iOS/Android để giảm độ trễ. stabilitychoeleven_v3được xác thực là0.0,0.5, hoặc1.0; các mô hình khác chấp nhận0..1.latency_tierđược xác thực là0..4khi được đặt.- Android hỗ trợ các định dạng đầu ra
pcm_16000,pcm_22050,pcm_24000, vàpcm_44100cho phát trực tuyến AudioTrack độ trễ thấp.