Extra recipes ============== ttslearn ライブラリは、「Pythonで学ぶ音声合成」の執筆に伴って開発されましたが、その応用は書籍で解説した音声合成に限りません。 書籍で解説しなかった発展的な音声合成の例として、第11章で少し触れた「非自己回帰型ニューラルボコーダ」を用いたレシピを用意しています。 音声サンプルは、左メニューの「Advanced TTS demos」で示したとおりです。 発展的なレシピのソースコードは、GitHubの ``extra_recipes`` ディレクトリに保存されています。 また、発展的なレシピに必要な機能は、``ttslearn.contrib`` モジュールにまとまっています。 書籍に解説はありませんが、興味のある読者は、ソースコードを読んで試してみて下さい。 以下、コーパスごとにレシピの概要を示します。 JSUT corpus ^^^^^^^^^^^^ https://sites.google.com/site/shinnosuketakamichi/publication/jsut - ``dnntts``: DNN音声合成(24kHz, 48kHz) - ``tacotron2_pwg``: Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz) JVS corpus ^^^^^^^^^^^^ https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus - ``dnntts``: DNN音声合成(24kHz) - ``multispk_tacotron2_pwg``: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz) Common voice (ja) ^^^^^^^^^^^^^^^^^^ https://commonvoice.mozilla.org/ja/datasets - ``multispk_tacotron2_pwg_20spks``: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz) - ``multispk_tacotron2_pwg_386spks``: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz) CSS 10 (ja) ^^^^^^^^^^^^^^^^^^ https://www.kaggle.com/bryanpark/japanese-single-speaker-speech-dataset - ``dnntts``: DNN音声合成(16kHz, 24kHz) - ``tacotron2_pwg``: Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz) その他のコーパスに同様の音声合成の仕組みを応用することは容易ですが、それらは読者に委ねます。 ttslearnのGitHubリポジトリにレシピを追加したい場合は、積極的に検討しますので、お問い合わせください。