实时语音克隆
此存储库是Transfer Learning from Speaker Verification to
Multispeaker Text-To-Speech Synthesis(SV2TTS),具有实时工作的声码器。请随时查看my thesis如果你很好奇,或者你在找我没有记录的信息。大多数情况下,我建议快速浏览一下导言之外的数字。
SV2TTS是一个三阶段深度学习框架,它允许从几秒钟的音频创建语音的数字表示,并使用它来调整文本到语音的模型,该模型经过训练以概括为新的语音
视频演示(点击图片):
已实施的文件
URL | 指定 | 标题 | 实施来源 |
---|---|---|---|
1806.04558 | SV2TTS | 从说话人确认到多说话人文语合成的转移学习 | 此回购 |
1802.08435 | WaveRNN(声码器) | 高效的神经音频合成 | fatchord/WaveRNN |
1703.10135 | 泰科加速器(合成器) | Taco tron:走向端到端语音合成 | fatchord/WaveRNN |
1710.10467 | GE2E(编码器) | 说话人确认的广义端到端损耗 | 此回购 |
新闻
14/02/21:这个回购现在运行在PyTorch上,而不是TensorFlow上,这要归功于@Bluefish的帮助。如果希望改为运行TensorFlow版本,请签出提交5425557
13/11/19:我现在是全职工作,我不会再维持这个回购了。致任何阅读此文的人:
- 如果你只想克隆你的声音(而不是别人的):我推荐我们的免费计划Resemble.AI你会得到更好的音质和更少的韵律错误
- 如果这不是您的情况:继续使用此存储库,但您可能最终会对结果感到失望。如果你计划做一个严肃的项目,我的强烈建议是:另找一个TTS回收站。去here了解更多信息
20/08/19:我正在努力resemblyzer,一个独立的语音编码器软件包。您可以使用此回收站中经过训练的编码器型号与其配合使用
06/07/19:需要在远程服务器上的坞站容器中运行吗?看见here
25/06/19:为合成器增加了对低内存GPU(~2 GB)的实验支持。经过--low_mem
至demo_cli.py
或demo_toolbox.py
来启用它。这会增加很大的开销,因此如果您有足够的VRAM,则不建议使用
设置
1.安装要求
Python 3.6或3.7运行工具箱所需的
2.下载预先训练好的模型
下载最新版本here
3.(可选)测试配置
在下载任何数据集之前,您可以通过以下方式开始测试配置:
python demo_cli.py
如果所有测试都通过了,你就可以走了
4.(可选)下载数据集
对于单独使用工具箱,我只推荐下载LibriSpeech/train-clean-100
将内容提取为<datasets_root>/LibriSpeech/train-clean-100
哪里<datasets_root>
是您选择的目录。工具箱中支持其他数据集,请参阅here您可以不下载任何数据集,但是您需要将您自己的数据作为音频文件,否则您必须使用工具箱进行记录
5.启动工具箱
然后,您可以尝试该工具箱:
python demo_toolbox.py -d <datasets_root>
或
python demo_toolbox.py
取决于您是否下载了任何数据集。如果您正在运行X服务器或出现错误Aborted (core dumped)
,请参见this issue