Github 23.3k Star!一款开源的前沿语音AI!
要点总结
- Github获2.3万Star的开源语音AI框架
- 基于Qwen2.5模型,集成TTS/ASR/Realtime
- 采用7.5Hz超低帧率连续语音Tokenizer
- TTS支持90分钟长音频及多人对话合成
- ASR支持说话人分离与精确时间戳
- 实时模型延迟仅300毫秒,支持多语言
🤖 AI 分析
📝 摘要
VibeVoice是一款集成了TTS、ASR和实时流式处理的开源语音AI框架。基于Qwen2.5模型与7.5Hz超低帧率Tokenizer,支持长文本多说话人合成、高精度识别及低延迟交互。