
VibeVoice:微软对“长文本语音”的一次降维打击
比起单纯的音色克隆,微软开源的 VibeVoice 更在意如何让模型一口气说上 90 分钟还不崩。支持 4 人对话、300ms 延迟,这可能是目前最接近“开源版 Podcast 引擎”的项目。
Discover all articles tagged with realtime. Find comprehensive content about realtime and related topics.

Explore articles by topic - discover content that interests you most