音频AI声音克隆

HierVST

一种零训练数据、零文本的声音转换系统。这意味着它可以将目标演讲者的声音风格转换到源演讲者上,而无需目标演讲者的任何训练数据。

标签:

HierVST是一种层次自适应的零样本语音风格转换模型。它通过利用层次变分推断和自监督表示来训练模型,无需文本转录即可实现数据集中不同说话者之间的语音风格转换。该模型采用层次自适应生成器,按顺序生成音高表示和波形音频。此外,模型还利用无条件生成方法改善声学表示中的说话者相关声学能力。通过层次自适应结构,该模型可以逐步适应新的语音风格并实现语音转换。实验证明,在零样本语音风格转换场景下,HierVST相较于其他VST模型表现更出色。

在实验中,HierVST与其他几种Voice Conversion模型进行了比较。此外,还展示了HierVST在许多到许多语音转换任务和一次语音转换任务中的表现。通过对HierVST进行单样本微调,还演示了一次语音转换的效果。另外,对HierVST进行了消融研究,研究了无条件生成比率、音韵蒸馏和层次自适应生成器对模型性能的影响。最后,HierVST还应用于零样本跨语种语音转换任务,表现出很好的转换效果。

相关导航

暂无评论

暂无评论...