HierVST

音频AI声音克隆

HierVST

一种零训练数据、零文本的声音转换系统。这意味着它可以将目标演讲者的声音风格转换到源演讲者上，而无需目标演讲者的任何训练数据。

标签：声音克隆

链接直达手机查看

HierVST是一种层次自适应的零样本语音风格转换模型。它通过利用层次变分推断和自监督表示来训练模型，无需文本转录即可实现数据集中不同说话者之间的语音风格转换。该模型采用层次自适应生成器，按顺序生成音高表示和波形音频。此外，模型还利用无条件生成方法改善声学表示中的说话者相关声学能力。通过层次自适应结构，该模型可以逐步适应新的语音风格并实现语音转换。实验证明，在零样本语音风格转换场景下，HierVST相较于其他VST模型表现更出色。

在实验中，HierVST与其他几种Voice Conversion模型进行了比较。此外，还展示了HierVST在许多到许多语音转换任务和一次语音转换任务中的表现。通过对HierVST进行单样本微调，还演示了一次语音转换的效果。另外，对HierVST进行了消融研究，研究了无条件生成比率、音韵蒸馏和层次自适应生成器对模型性能的影响。最后，HierVST还应用于零样本跨语种语音转换任务，表现出很好的转换效果。

相关导航

一款人工智能内容创作平台，其核心服务聚焦于AI声音克隆、文字配音以及文案创作

Voicemod

一款实时语音转换器软件，提供多种音调和音色，适用于网络电话、网络聊天和游戏中的语音聊天

Altered

一款语音处理软件，适用于在线和桌面版本。它提供语音转换、语音生成、声音克隆、录音和编辑功能，满足个人和企业需求

coqui

基于AI的语音合成和语音识别服务，如即时声音克隆、自动生成语音等

REECHO 睿声

一款超拟真的语音克隆平台，通过使用瞬时创建技术，可以快速克隆并创造出与真人无异的语音角色。

Listnr

一个AI文本转语音生成器，提供超过600种逼真的人声，支持75种不同语言。用户只需将文本输入平台，即可将其转换为MP3或WAV格式的语音

暂无评论

暂无评论...

51an.com是一家专门收集整理各种AI工具网站的导航网站，致力于为用户提供全面、便捷、高效的AI工具导航服务。网站收录了众多AI工具、资源网站，包括AI绘图、智能剪辑视频、自然语言处理、图像识别、大数据分析等多个领域的工具。是AI爱好者必备工具。

友链申请免责声明关于本站

Copyright © 2025 流量源泉 - 51AI门户京ICP备15044037号-23

鄂公网安备：42010202000889 号