该存储库包含用于训练 Pheme TTS 模型的配方和模型。可以用比 VALL-E 或 SoundStorm 等少得多的训练数据来训练基于 Transformer 的会话 TTS 模型(例如,数据少 10 倍)。可以使用对话数据、播客数据和 GigaSpeech 等噪声数据来执行训练。效率至关重要,包括参数效率(紧凑模型)、数据效率(更少的训练数据)和推理效率(减少延迟)。一个基本要素是语义和声学标记的分离以及适当的语音标记器。推理可以通过 MaskGit 风格的推理并行运行,与类似大小的自回归模型相比,速度提高了 15 倍。可以通过使用第三方提供商生成的(合成)数据进行师生培训来提高单说话人的质量。
相关导航
暂无评论...