實時語音對話服務
基於 SenseVoice 模型的 WebSocket 實時語音轉文字服務,支援多語言辨識及粵語(香港繁體)後處理。
https://sts-vert-one.vercel.app
前往 BobAI
Speech
WebSocket
Real-time
-
項目說明
SenseVoice 實時語音辨識服務
一句話介紹
基於 SenseVoice 模型的實時語音辨識服務,採用 FastAPI + WebSocket 架構,支援多語言流式語音轉文字,並具備粵語(香港繁體)專用後處理能力。
項目定位
本項目面向需具備實時語音轉文字能力的業務場景,提供一套完整的 STT(Speech-to-Text)解決方案。系統採用本地部署的 SenseVoice ONNX 模型,結合 VAD 語音活動檢測與智能後處理流程,實現低延遲、高準確度的語音辨識體驗。
主要功能
1. 實時流式語音辨識
透過 WebSocket 協議實現音頻流的即時傳輸與辨識,用戶說話同時即可看到逐字轉寫結果,無需等待完整錄音結束。
核心特性:
- 雙重觸發機制:每 0.5 秒即時辨識 + VAD 段落結束時精準辨識
- VAD 語音活動檢測:智能判斷語音起始與終止點
- 自動重連:網絡中斷後自動恢復連線
- 音頻品質監控:即時音量偵測與品質提示
2. 多語言支援
系統支援多種語言及方言辨識,滿足不同用戶群體需求。
支援語言:
- 中文(普通話)
- 英文
- 日文
- 韓文
- 粵語(含香港繁體後處理)
3. 粵語(香港繁體)後處理
當語言設定為粵語時,伺服器端自動執行完整後處理流程,確保輸出符合香港繁體書寫習慣。
處理流程:
- OpenCC s2hk:簡體字轉香港繁體字
- 粵語專有名詞詞典覆蓋(支援多層詞典疊加)
- 即時片段僅作快速轉換;整段結果執行完整後處理
- 逆文本正規化(ITN):數字、日期、時間等格式轉換
4. MiniMax TTS 代理
項目內建 MiniMax 文字轉語音(TTS)的 WebSocket 代理端點,支援在同一服務中同步提供語音辨識與語音合成能力。
代理特性:
- 本地 WebSocket 端點透傳 MiniMax API
- 支援 API Key 本地注入
- 上游事件原樣透傳(如音頻分片、狀態事件等)
技術架構
| 元件 | 技術選型 | 說明 |
|---|---|---|
| 後端框架 | FastAPI | 高效能非同步 Python Web 框架 |
| 實時通訊 | WebSocket | 雙向流式音頻傳輸 |
| 語音模型 | SenseVoice ONNX | 高精度多語言語音辨識模型 |
| VAD 模型 | Silero VAD | 輕量級語音活動檢測模型 |
| 繁體轉換 | OpenCC | 簡繁體轉換引擎 |
| 詞典系統 | CC-Canto + 自訂詞典 | 粵語專有名詞詞庫 |
應用場景
實時會議轉寫
為會議、培訓、講座等場景提供實時語音轉文字服務,支援多語言混合辨識。
粵語客戶服務系統
針對香港市場的客服場景,自動將粵語語音轉換為合乎規範的香港繁體文字輸出。
語音互動應用
作為語音互動產品底層 STT 引擎,為智能助手、語音輸入等場景提供辨識能力。
無障礙輔助工具
為聽障人士提供實時語音轉文字輔助,提升資訊獲取之便捷性。
產品價值
- 本地部署,資料不出境,符合私隱合規要求
- 流式辨識延遲低,用戶體驗流暢自然
- 粵語(香港繁體)後處理填補市場空白
- 雙重辨識機制兼顧即時性與準確性
- 架構清晰,易於整合至現有系統