published

healthy

語言简体中文繁体中文（粤语）English

實時語音對話服務

基於 SenseVoice 模型的 WebSocket 實時語音轉文字服務，支援多語言辨識及粵語（香港繁體）後處理。

https://sts-vert-one.vercel.app

AI

Speech

WebSocket

Real-time

-

項目說明

SenseVoice 實時語音辨識服務

一句話介紹

基於 SenseVoice 模型的實時語音辨識服務，採用 FastAPI + WebSocket 架構，支援多語言流式語音轉文字，並具備粵語（香港繁體）專用後處理能力。

項目定位

本項目面向需具備實時語音轉文字能力的業務場景，提供一套完整的 STT（Speech-to-Text）解決方案。系統採用本地部署的 SenseVoice ONNX 模型，結合 VAD 語音活動檢測與智能後處理流程，實現低延遲、高準確度的語音辨識體驗。

主要功能

1. 實時流式語音辨識

透過 WebSocket 協議實現音頻流的即時傳輸與辨識，用戶說話同時即可看到逐字轉寫結果，無需等待完整錄音結束。

核心特性：

雙重觸發機制：每 0.5 秒即時辨識＋ VAD 段落結束時精準辨識
VAD 語音活動檢測：智能判斷語音起始與終止點
自動重連：網絡中斷後自動恢復連線
音頻品質監控：即時音量偵測與品質提示

2. 多語言支援

系統支援多種語言及方言辨識，滿足不同用戶群體需求。

支援語言：

中文（普通話）
英文
日文
韓文
粵語（含香港繁體後處理）

3. 粵語（香港繁體）後處理

當語言設定為粵語時，伺服器端自動執行完整後處理流程，確保輸出符合香港繁體書寫習慣。

處理流程：

OpenCC s2hk：簡體字轉香港繁體字
粵語專有名詞詞典覆蓋（支援多層詞典疊加）
即時片段僅作快速轉換；整段結果執行完整後處理
逆文本正規化（ITN）：數字、日期、時間等格式轉換

4. MiniMax TTS 代理

項目內建 MiniMax 文字轉語音（TTS）的 WebSocket 代理端點，支援在同一服務中同步提供語音辨識與語音合成能力。

代理特性：

本地 WebSocket 端點透傳 MiniMax API
支援 API Key 本地注入
上游事件原樣透傳（如音頻分片、狀態事件等）

技術架構

元件	技術選型	說明
後端框架	FastAPI	高效能非同步 Python Web 框架
實時通訊	WebSocket	雙向流式音頻傳輸
語音模型	SenseVoice ONNX	高精度多語言語音辨識模型
VAD 模型	Silero VAD	輕量級語音活動檢測模型
繁體轉換	OpenCC	簡繁體轉換引擎
詞典系統	CC-Canto ＋自訂詞典	粵語專有名詞詞庫

應用場景

實時會議轉寫

為會議、培訓、講座等場景提供實時語音轉文字服務，支援多語言混合辨識。

粵語客戶服務系統

針對香港市場的客服場景，自動將粵語語音轉換為合乎規範的香港繁體文字輸出。

語音互動應用

作為語音互動產品底層 STT 引擎，為智能助手、語音輸入等場景提供辨識能力。

無障礙輔助工具

為聽障人士提供實時語音轉文字輔助，提升資訊獲取之便捷性。

產品價值

本地部署，資料不出境，符合私隱合規要求
流式辨識延遲低，用戶體驗流暢自然
粵語（香港繁體）後處理填補市場空白
雙重辨識機制兼顧即時性與準確性
架構清晰，易於整合至現有系統

GitHub 查看全部資料