Pythonで学ぶ音声合成 (Text-to-speech with Python)

Pythonで学ぶ音声合成

このサイトは何?

これは「Pythonで学ぶ音声合成」のドキュメントサイトです。内容は以下の通りです。

  • 学習済みモデルを利用した音声合成のデモ

  • 書籍に付属のソースコードのうち、著者 (山本) が実行した結果を保存した Jupyter ノートブック (第4章から第10章まで)

  • 音声合成のためのコアライブラリ ttslearn のドキュメント

書籍と併せて、学習の参考にしていただければ幸いです。

Python環境

Pythonの実行環境には、PyTorchやNumPyのインストールのしやすさから、Anacondaを推奨します。 ただし、Pythonの環境管理に長けた読者であれば、任意のPython環境を使っていただいても問題ありません。

動作環境

  • Linux

  • Mac OS X

Windowsは、動作確認をしておりません 1 。動作環境には、CUDA/cuDNNがセットアップされたLinux環境を推奨します。

Google Colab を利用する場合

Linux環境を自前で用意するのが難しい読者のために、すべてのJupyter notebook をGoogle Colabで実行できるように配慮しています。 ただし、Google Colabは無償利用に制限があること、Python環境が予告なく変更されることから、可能であれば読者のローカル環境で実行することを推奨します。

Google Colabの基本的な使い方は、https://colab.research.google.com/ を参照してください。

Docker を利用する場合

Docker hub でイメージを公開してるので、そちらを利用してください。 https://hub.docker.com/r/r9y9/ttslearn

インストール

用途によって、インストール方法が異なります。詳細は以下の通りです。

書籍のサンプルコードをすべて利用する場合

音声合成のコアライブラリ ttslearn、レシピ、Jupyterノートブックのすべてが必要です。 GitHubリポジトリにすべて含まれていますので、リポジトリをクローンした後、必要なライブラリをインストールしてください。 Python環境の準備は、前もって行って下さい。

git clone https://github.com/r9y9/ttslearn.git && cd ttslearn
pip install -e ".[recipes]"

学習済みモデルを用いた音声合成のみを利用する場合

ttslearn ライブラリをインストールすれば十分です。GitHubリポジトリのソースコードをダウンロードする必要はありません。

pip install ttslearn

インストールが完了すれば、左メニューのデモに示すように、学習済みモデルを利用したテキスト音声合成が可能になります。

Meta information

Indices and tables

Footnotes

1

Windowsで原理的に動かないわけではありません。もしWindowsサポートに協力してくれる方がいれば、貢献を歓迎します。