HierVST

HierVST 是一种分层自适应零样本语音风格转换模型，它具备以下功能特点：

零样本语音风格转换：HierVST 可以在没有目标说话者语音数据的情况下，将一个新的说话者的语音风格转换为目标风格。这意味着即使没有目标说话者的语音样本，HierVST 也可以生成具有目标风格的语音。
分层自适应结构：HierVST 使用分层自适应生成器，逐步生成音高表示和波形音频，从而实现逐步转换语音的能力。这种结构让模型能够适应新的语音风格，并逐步进行转换。
自监督表示学习：HierVST 仅使用语音数据集进行训练，而无需使用文本转录。它采用了层次变分推断和自监督表示学习的方法，提高了模型在音频表示上的性能。
性能优于其他模型：在零样本语音风格转换场景中，HierVST 的实验结果表明其性能优于其他 VST 模型，如 AutoVC、VoiceMixer、DiffVC、Speech Resynthesis 和 YourTTS。