返回首页
published
healthy

实时语音对话服务

基于 SenseVoice 模型的 WebSocket 实时语音转文字服务,支持多语言识别与粤语香港繁体后处理。

https://sts-vert-one.vercel.app

访问 Bob
AI
Speech
WebSocket
Real-time

-

项目说明

SenseVoice 实时语音识别服务

一句话介绍

基于 SenseVoice 模型的实时语音识别服务,通过 FastAPI + WebSocket 构建,支持多语言流式语音转文字,并提供粤语香港繁体后处理能力。

项目定位

本项目面向需要实时语音转文字能力的业务场景,提供一套完整的 STT(Speech-to-Text)解决方案。系统采用本地部署的 SenseVoice ONNX 模型,结合 VAD 语音活动检测和智能后处理链路,实现低延迟、高精度的语音识别体验。

主要功能

1. 实时流式语音识别

基于 WebSocket 协议实现音频流的实时传输与识别,用户说话的同时即可看到转写结果,无需等待完整录音。

核心特性:

  • 双重触发机制:每 0.5 秒实时识别 + VAD 段落结束时精确识别
  • VAD 语音活动检测:智能判断语音开始和结束
  • 自动重连:网络断线后自动恢复连接
  • 音频质量监控:实时音量检测与质量提示

2. 多语言支持

系统支持多种语言和方言的识别,满足不同用户群体需求。

支持语言:

  • 中文(普通话)
  • 英文
  • 日文
  • 韩文
  • 粤语(含香港繁体后处理)

3. 粤语香港繁体后处理

当语言设为粤语时,服务端自动执行完整的后处理链路,确保输出符合香港繁体书写习惯。

处理流程:

  • OpenCC s2hk 简体转香港繁体
  • 粤语专名词典覆盖(支持多层词典叠加)
  • 实时块仅做快速转换,整段结果执行完整后处理
  • 逆文本标准化(ITN):数字、日期、时间等格式转换

4. MiniMax TTS 代理

项目集成了 MiniMax 文字转语音的 WebSocket 代理端点,支持在同一服务中同时提供语音识别和语音合成能力。

代理特性:

  • 本地 WebSocket 端点透传 MiniMax API
  • 支持 API Key 本地注入
  • 上游事件原样透传(音频分片、状态事件等)

技术架构

组件技术选型说明
后端框架FastAPI高性能异步 Python Web 框架
实时通信WebSocket双向流式音频传输
语音模型SenseVoice ONNX高精度多语言语音识别
VAD 模型Silero VAD轻量级语音活动检测
繁体转换OpenCC简繁体转换引擎
词典系统CC-Canto + 自定义词典粤语专名词库

应用场景

实时会议转写

为会议、培训、讲座等场景提供实时语音转文字服务,支持多语言混合识别。

粤语客服系统

面向香港市场的客服场景,自动将粤语语音转换为规范的香港繁体文字输出。

语音交互应用

作为语音交互产品的底层 STT 引擎,为智能助手、语音输入等场景提供识别能力。

无障碍辅助工具

为听障人士提供实时语音转文字辅助,提升信息获取的便捷性。

产品价值

  • 本地部署,数据不出境,满足隐私合规要求
  • 流式识别延迟低,用户体验流畅
  • 粤语香港繁体后处理填补市场空白
  • 双重识别机制兼顾实时性与准确性
  • 架构清晰,易于集成到现有系统中