HierVST是一种层次自适应的零样本语音风格转换模型。它通过利用层次变分推断和自监督表示来训练模型,无需文本转录即可实现数据集中不同说话者之间的语音风格转换。该模型采用层次自适应生成器,按顺序生成音高表示和波形音频。此外,模型还利用无条件生成方法改善声学表示中的说话者相关声学能力。通过层次自适应结构,该模型可以逐步适应新的语音风格并实现语音转换。实验证明,在零样本语音风格转换场景下,HierVST相较于其他VST模型表现更出色。
在实验中,HierVST与其他几种Voice Conversion模型进行了比较。此外,还展示了HierVST在许多到许多语音转换任务和一次语音转换任务中的表现。通过对HierVST进行单样本微调,还演示了一次语音转换的效果。另外,对HierVST进行了消融研究,研究了无条件生成比率、音韵蒸馏和层次自适应生成器对模型性能的影响。最后,HierVST还应用于零样本跨语种语音转换任务,表现出很好的转换效果。
相关导航
暂无评论...