Extra recipes¶
ttslearn ライブラリは、「Pythonで学ぶ音声合成」の執筆に伴って開発されましたが、その応用は書籍で解説した音声合成に限りません。 書籍で解説しなかった発展的な音声合成の例として、第11章で少し触れた「非自己回帰型ニューラルボコーダ」を用いたレシピを用意しています。 音声サンプルは、左メニューの「Advanced TTS demos」で示したとおりです。
発展的なレシピのソースコードは、GitHubの extra_recipes
ディレクトリに保存されています。
また、発展的なレシピに必要な機能は、ttslearn.contrib
モジュールにまとまっています。
書籍に解説はありませんが、興味のある読者は、ソースコードを読んで試してみて下さい。
以下、コーパスごとにレシピの概要を示します。
JSUT corpus¶
https://sites.google.com/site/shinnosuketakamichi/publication/jsut
dnntts
: DNN音声合成(24kHz, 48kHz)tacotron2_pwg
: Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)
JVS corpus¶
https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus
dnntts
: DNN音声合成(24kHz)multispk_tacotron2_pwg
: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)
Common voice (ja)¶
https://commonvoice.mozilla.org/ja/datasets
multispk_tacotron2_pwg_20spks
: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)multispk_tacotron2_pwg_386spks
: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)
CSS 10 (ja)¶
https://www.kaggle.com/bryanpark/japanese-single-speaker-speech-dataset
dnntts
: DNN音声合成(16kHz, 24kHz)tacotron2_pwg
: Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)
その他のコーパスに同様の音声合成の仕組みを応用することは容易ですが、それらは読者に委ねます。
ttslearnのGitHubリポジトリにレシピを追加したい場合は、積極的に検討しますので、お問い合わせください。