SenseVoice 实时语音识别服务

一句话介绍

基于 SenseVoice 模型的实时语音识别服务，通过 FastAPI + WebSocket 构建，支持多语言流式语音转文字，并提供粤语香港繁体后处理能力。

本项目面向需要实时语音转文字能力的业务场景，提供一套完整的 STT（Speech-to-Text）解决方案。系统采用本地部署的 SenseVoice ONNX 模型，结合 VAD 语音活动检测和智能后处理链路，实现低延迟、高精度的语音识别体验。

基于 WebSocket 协议实现音频流的实时传输与识别，用户说话的同时即可看到转写结果，无需等待完整录音。

核心特性：

系统支持多种语言和方言的识别，满足不同用户群体需求。

支持语言：

当语言设为粤语时，服务端自动执行完整的后处理链路，确保输出符合香港繁体书写习惯。

处理流程：

项目集成了 MiniMax 文字转语音的 WebSocket 代理端点，支持在同一服务中同时提供语音识别和语音合成能力。

代理特性：

为会议、培训、讲座等场景提供实时语音转文字服务，支持多语言混合识别。

面向香港市场的客服场景，自动将粤语语音转换为规范的香港繁体文字输出。

作为语音交互产品的底层 STT 引擎，为智能助手、语音输入等场景提供识别能力。

为听障人士提供实时语音转文字辅助，提升信息获取的便捷性。