返回首頁
published
healthy

實時語音對話服務

基於 SenseVoice 模型的 WebSocket 實時語音轉文字服務,支援多語言辨識及粵語(香港繁體)後處理。

https://sts-vert-one.vercel.app

前往 Bob
AI
Speech
WebSocket
Real-time

-

項目說明

SenseVoice 實時語音辨識服務

一句話介紹

基於 SenseVoice 模型的實時語音辨識服務,採用 FastAPI + WebSocket 架構,支援多語言流式語音轉文字,並具備粵語(香港繁體)專用後處理能力。

項目定位

本項目面向需具備實時語音轉文字能力的業務場景,提供一套完整的 STT(Speech-to-Text)解決方案。系統採用本地部署的 SenseVoice ONNX 模型,結合 VAD 語音活動檢測與智能後處理流程,實現低延遲、高準確度的語音辨識體驗。

主要功能

1. 實時流式語音辨識

透過 WebSocket 協議實現音頻流的即時傳輸與辨識,用戶說話同時即可看到逐字轉寫結果,無需等待完整錄音結束。

核心特性:

  • 雙重觸發機制:每 0.5 秒即時辨識 + VAD 段落結束時精準辨識
  • VAD 語音活動檢測:智能判斷語音起始與終止點
  • 自動重連:網絡中斷後自動恢復連線
  • 音頻品質監控:即時音量偵測與品質提示

2. 多語言支援

系統支援多種語言及方言辨識,滿足不同用戶群體需求。

支援語言:

  • 中文(普通話)
  • 英文
  • 日文
  • 韓文
  • 粵語(含香港繁體後處理)

3. 粵語(香港繁體)後處理

當語言設定為粵語時,伺服器端自動執行完整後處理流程,確保輸出符合香港繁體書寫習慣。

處理流程:

  • OpenCC s2hk:簡體字轉香港繁體字
  • 粵語專有名詞詞典覆蓋(支援多層詞典疊加)
  • 即時片段僅作快速轉換;整段結果執行完整後處理
  • 逆文本正規化(ITN):數字、日期、時間等格式轉換

4. MiniMax TTS 代理

項目內建 MiniMax 文字轉語音(TTS)的 WebSocket 代理端點,支援在同一服務中同步提供語音辨識與語音合成能力。

代理特性:

  • 本地 WebSocket 端點透傳 MiniMax API
  • 支援 API Key 本地注入
  • 上游事件原樣透傳(如音頻分片、狀態事件等)

技術架構

元件技術選型說明
後端框架FastAPI高效能非同步 Python Web 框架
實時通訊WebSocket雙向流式音頻傳輸
語音模型SenseVoice ONNX高精度多語言語音辨識模型
VAD 模型Silero VAD輕量級語音活動檢測模型
繁體轉換OpenCC簡繁體轉換引擎
詞典系統CC-Canto + 自訂詞典粵語專有名詞詞庫

應用場景

實時會議轉寫

為會議、培訓、講座等場景提供實時語音轉文字服務,支援多語言混合辨識。

粵語客戶服務系統

針對香港市場的客服場景,自動將粵語語音轉換為合乎規範的香港繁體文字輸出。

語音互動應用

作為語音互動產品底層 STT 引擎,為智能助手、語音輸入等場景提供辨識能力。

無障礙輔助工具

為聽障人士提供實時語音轉文字輔助,提升資訊獲取之便捷性。

產品價值

  • 本地部署,資料不出境,符合私隱合規要求
  • 流式辨識延遲低,用戶體驗流暢自然
  • 粵語(香港繁體)後處理填補市場空白
  • 雙重辨識機制兼顧即時性與準確性
  • 架構清晰,易於整合至現有系統