它是通过大型语音语言模型的风格扩散和对抗性训练实现人类水平的文本转语音工具,通过扩散模型将风格建模为潜在随机变量,无需参考语音即可生成最适合文本的风格,实现高效的潜在扩散,同时受益于扩散模型提供的多样化语音合成。这项工作在单说话人和多说话人数据集上首次实现了人类水平的 TTS 合成,展示了大型 SLM 风格扩散和对抗训练的潜力。
相关导航
暂无评论...
它是通过大型语音语言模型的风格扩散和对抗性训练实现人类水平的文本转语音工具,通过扩散模型将风格建模为潜在随机变量,无需参考语音即可生成最适合文本的风格,实现高效的潜在扩散,同时受益于扩散模型提供的多样化语音合成。这项工作在单说话人和多说话人数据集上首次实现了人类水平的 TTS 合成,展示了大型 SLM 风格扩散和对抗训练的潜力。