VITS(端到端文本到语音的对...
VITS(端到端文本到语音的对抗性学习的变分推理)是一种端到端语音合成模型,可根据输入文本序列预测语音波形。它是一种条件变分自动编码器(VAE),由后验编码器、解码器和条件先验组成。
它是通过大型语音语言模型的...
它是面向所有人的零样本多扬...
EmotiVoice 是一款功能强大且...
XTTS 是一种语音生成模型,让...
Tortoise 是一个文本转语音程...
基于 EnCodec 标记器的非官方...