FastSpeech2 | AI资源网

它是一个用于教学、培训和使用最先进的语音合成模型的工具包，由德国斯图加特大学自然语言处理研究所 (IMS) 开发。一切都是基于纯 Python 和 PyTorch 的，以使其尽可能简单且对初学者友好，但又尽可能强大。2代还将声码器的采样率从 48kHz 降低到 24kHz。虽然理论上的质量上限降低了，但实际上，声码器产生的伪影要少得多。