Extra recipes
==============

ttslearn ライブラリは、「Pythonで学ぶ音声合成」の執筆に伴って開発されましたが、その応用は書籍で解説した音声合成に限りません。
書籍で解説しなかった発展的な音声合成の例として、第11章で少し触れた「非自己回帰型ニューラルボコーダ」を用いたレシピを用意しています。
音声サンプルは、左メニューの「Advanced TTS demos」で示したとおりです。

発展的なレシピのソースコードは、GitHubの ``extra_recipes`` ディレクトリに保存されています。
また、発展的なレシピに必要な機能は、``ttslearn.contrib`` モジュールにまとまっています。
書籍に解説はありませんが、興味のある読者は、ソースコードを読んで試してみて下さい。

以下、コーパスごとにレシピの概要を示します。

JSUT corpus
^^^^^^^^^^^^

https://sites.google.com/site/shinnosuketakamichi/publication/jsut


- ``dnntts``: DNN音声合成（24kHz, 48kHz）
- ``tacotron2_pwg``: Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)

JVS corpus
^^^^^^^^^^^^

https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus

- ``dnntts``: DNN音声合成（24kHz）
- ``multispk_tacotron2_pwg``: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)

Common voice (ja)
^^^^^^^^^^^^^^^^^^

https://commonvoice.mozilla.org/ja/datasets

- ``multispk_tacotron2_pwg_20spks``: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)
- ``multispk_tacotron2_pwg_386spks``: Multi-speaker Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)


CSS 10 (ja)
^^^^^^^^^^^^^^^^^^

https://www.kaggle.com/bryanpark/japanese-single-speaker-speech-dataset

- ``dnntts``: DNN音声合成（16kHz, 24kHz）
- ``tacotron2_pwg``: Tacotron 2 with Parallel WaveGAN (16kHz, 24kHz)

その他のコーパスに同様の音声合成の仕組みを応用することは容易ですが、それらは読者に委ねます。

ttslearnのGitHubリポジトリにレシピを追加したい場合は、積極的に検討しますので、お問い合わせください。