Github 23.3k Star!一款开源的前沿语音AI!

要点总结

  • Github获2.3万Star的开源语音AI框架
  • 基于Qwen2.5模型,集成TTS/ASR/Realtime
  • 采用7.5Hz超低帧率连续语音Tokenizer
  • TTS支持90分钟长音频及多人对话合成
  • ASR支持说话人分离与精确时间戳
  • 实时模型延迟仅300毫秒,支持多语言

🤖 AI 分析

📝 摘要

VibeVoice是一款集成了TTS、ASR和实时流式处理的开源语音AI框架。基于Qwen2.5模型与7.5Hz超低帧率Tokenizer,支持长文本多说话人合成、高精度识别及低延迟交互。

查看原文