实时语音克隆

此存储库是Transfer Learning from Speaker Verification to
Multispeaker Text-To-Speech Synthesis(SV2TTS)，具有实时工作的声码器。请随时查看my thesis如果你很好奇，或者你在找我没有记录的信息。大多数情况下，我建议快速浏览一下导言之外的数字。

SV2TTS是一个三阶段深度学习框架，它允许从几秒钟的音频创建语音的数字表示，并使用它来调整文本到语音的模型，该模型经过训练以概括为新的语音

视频演示(点击图片)：

已实施的文件

URL	指定	标题	实施来源
1806.04558	SV2TTS	从说话人确认到多说话人文语合成的转移学习	此回购
1802.08435	WaveRNN(声码器)	高效的神经音频合成	fatchord/WaveRNN
1703.10135	泰科加速器(合成器)	Taco tron：走向端到端语音合成	fatchord/WaveRNN
1710.10467	GE2E(编码器)	说话人确认的广义端到端损耗	此回购

新闻

14/02/21：这个回购现在运行在PyTorch上，而不是TensorFlow上，这要归功于@Bluefish的帮助。如果希望改为运行TensorFlow版本，请签出提交5425557

13/11/19：我现在是全职工作，我不会再维持这个回购了。致任何阅读此文的人：

如果你只想克隆你的声音(而不是别人的)：我推荐我们的免费计划Resemble.AI你会得到更好的音质和更少的韵律错误
如果这不是您的情况：继续使用此存储库，但您可能最终会对结果感到失望。如果你计划做一个严肃的项目，我的强烈建议是：另找一个TTS回收站。去here了解更多信息

20/08/19：我正在努力resemblyzer，一个独立的语音编码器软件包。您可以使用此回收站中经过训练的编码器型号与其配合使用

06/07/19：需要在远程服务器上的坞站容器中运行吗？看见here

25/06/19：为合成器增加了对低内存GPU(~2 GB)的实验支持。经过--low_mem至demo_cli.py或demo_toolbox.py来启用它。这会增加很大的开销，因此如果您有足够的VRAM，则不建议使用

设置

1.安装要求

Python 3.6或3.7运行工具箱所需的

安装PyTorch(>=1.0.1)
安装ffmpeg
跑pip install -r requirements.txt要安装剩余的必要软件包，请执行以下操作

2.下载预先训练好的模型

下载最新版本here

3.(可选)测试配置

在下载任何数据集之前，您可以通过以下方式开始测试配置：

python demo_cli.py

如果所有测试都通过了，你就可以走了

4.(可选)下载数据集

对于单独使用工具箱，我只推荐下载LibriSpeech/train-clean-100将内容提取为<datasets_root>/LibriSpeech/train-clean-100哪里<datasets_root>是您选择的目录。工具箱中支持其他数据集，请参阅here您可以不下载任何数据集，但是您需要将您自己的数据作为音频文件，否则您必须使用工具箱进行记录

5.启动工具箱

然后，您可以尝试该工具箱：

python demo_toolbox.py -d <datasets_root>
或
python demo_toolbox.py

取决于您是否下载了任何数据集。如果您正在运行X服务器或出现错误Aborted (core dumped)，请参见this issue

Python 实用宝典

Real-Time-Voice-Cloning 5秒内克隆语音，实时生成任意语音