Pythonで学ぶ音声合成 (Text-to-speech with Python)¶
インプレス書籍情報: https://book.impress.co.jp/books/1120101073
GitHub: https://github.com/r9y9/ttslearn
このサイトは何?¶
これは「Pythonで学ぶ音声合成」のドキュメントサイトです。内容は以下の通りです。
学習済みモデルを利用した音声合成のデモ
書籍に付属のソースコードのうち、著者 (山本) が実行した結果を保存した Jupyter ノートブック (第4章から第10章まで)
音声合成のためのコアライブラリ ttslearn のドキュメント
書籍と併せて、学習の参考にしていただければ幸いです。
Python環境¶
Pythonの実行環境には、PyTorchやNumPyのインストールのしやすさから、Anacondaを推奨します。 ただし、Pythonの環境管理に長けた読者であれば、任意のPython環境を使っていただいても問題ありません。
動作環境¶
Linux
Mac OS X
Windowsは、動作確認をしておりません 1 。動作環境には、CUDA/cuDNNがセットアップされたLinux環境を推奨します。
Google Colab を利用する場合¶
Linux環境を自前で用意するのが難しい読者のために、すべてのJupyter notebook をGoogle Colabで実行できるように配慮しています。 ただし、Google Colabは無償利用に制限があること、Python環境が予告なく変更されることから、可能であれば読者のローカル環境で実行することを推奨します。
Google Colabの基本的な使い方は、https://colab.research.google.com/ を参照してください。
Docker を利用する場合¶
Docker hub でイメージを公開してるので、そちらを利用してください。 https://hub.docker.com/r/r9y9/ttslearn
インストール¶
用途によって、インストール方法が異なります。詳細は以下の通りです。
書籍のサンプルコードをすべて利用する場合¶
音声合成のコアライブラリ ttslearn、レシピ、Jupyterノートブックのすべてが必要です。 GitHubリポジトリにすべて含まれていますので、リポジトリをクローンした後、必要なライブラリをインストールしてください。 Python環境の準備は、前もって行って下さい。
git clone https://github.com/r9y9/ttslearn.git && cd ttslearn
pip install -e ".[recipes]"
学習済みモデルを用いた音声合成のみを利用する場合¶
ttslearn ライブラリをインストールすれば十分です。GitHubリポジトリのソースコードをダウンロードする必要はありません。
pip install ttslearn
インストールが完了すれば、左メニューのデモに示すように、学習済みモデルを利用したテキスト音声合成が可能になります。