实时语音对话服务
基于 SenseVoice 模型的 WebSocket 实时语音转文字服务,支持多语言识别与粤语香港繁体后处理。
https://sts-vert-one.vercel.app
访问 BobAI
Speech
WebSocket
Real-time
-
项目说明
SenseVoice 实时语音识别服务
一句话介绍
基于 SenseVoice 模型的实时语音识别服务,通过 FastAPI + WebSocket 构建,支持多语言流式语音转文字,并提供粤语香港繁体后处理能力。
项目定位
本项目面向需要实时语音转文字能力的业务场景,提供一套完整的 STT(Speech-to-Text)解决方案。系统采用本地部署的 SenseVoice ONNX 模型,结合 VAD 语音活动检测和智能后处理链路,实现低延迟、高精度的语音识别体验。
主要功能
1. 实时流式语音识别
基于 WebSocket 协议实现音频流的实时传输与识别,用户说话的同时即可看到转写结果,无需等待完整录音。
核心特性:
- 双重触发机制:每 0.5 秒实时识别 + VAD 段落结束时精确识别
- VAD 语音活动检测:智能判断语音开始和结束
- 自动重连:网络断线后自动恢复连接
- 音频质量监控:实时音量检测与质量提示
2. 多语言支持
系统支持多种语言和方言的识别,满足不同用户群体需求。
支持语言:
- 中文(普通话)
- 英文
- 日文
- 韩文
- 粤语(含香港繁体后处理)
3. 粤语香港繁体后处理
当语言设为粤语时,服务端自动执行完整的后处理链路,确保输出符合香港繁体书写习惯。
处理流程:
- OpenCC s2hk 简体转香港繁体
- 粤语专名词典覆盖(支持多层词典叠加)
- 实时块仅做快速转换,整段结果执行完整后处理
- 逆文本标准化(ITN):数字、日期、时间等格式转换
4. MiniMax TTS 代理
项目集成了 MiniMax 文字转语音的 WebSocket 代理端点,支持在同一服务中同时提供语音识别和语音合成能力。
代理特性:
- 本地 WebSocket 端点透传 MiniMax API
- 支持 API Key 本地注入
- 上游事件原样透传(音频分片、状态事件等)
技术架构
| 组件 | 技术选型 | 说明 |
|---|---|---|
| 后端框架 | FastAPI | 高性能异步 Python Web 框架 |
| 实时通信 | WebSocket | 双向流式音频传输 |
| 语音模型 | SenseVoice ONNX | 高精度多语言语音识别 |
| VAD 模型 | Silero VAD | 轻量级语音活动检测 |
| 繁体转换 | OpenCC | 简繁体转换引擎 |
| 词典系统 | CC-Canto + 自定义词典 | 粤语专名词库 |
应用场景
实时会议转写
为会议、培训、讲座等场景提供实时语音转文字服务,支持多语言混合识别。
粤语客服系统
面向香港市场的客服场景,自动将粤语语音转换为规范的香港繁体文字输出。
语音交互应用
作为语音交互产品的底层 STT 引擎,为智能助手、语音输入等场景提供识别能力。
无障碍辅助工具
为听障人士提供实时语音转文字辅助,提升信息获取的便捷性。
产品价值
- 本地部署,数据不出境,满足隐私合规要求
- 流式识别延迟低,用户体验流畅
- 粤语香港繁体后处理填补市场空白
- 双重识别机制兼顾实时性与准确性
- 架构清晰,易于集成到现有系统中