End-to-End 音声合成の研究を加速させるツールキット ESPnet-TTS / ESPnet-TTS: A toolkit to accelerate research on end-to-end speech synthesis @ ASJ 2020s

Abstract

深層学習技術の目覚ましい発展に伴い, End-to-End型音声合成システム (E2E-TTS) が注目を集めており,従来のパイプライン方式の音声合成システムを置き換えつつある. E2E-TTS は, 従来方式と比べ, 専門的な言語知識に基づく言語特徴量の抽出や, テキストと音声の時間的な対応関係を表すアライメント情報を必要としない. また, WaveNet や WaveRNN に代表されるニューラルボコーダの導入により, 人間の肉声と聞き間違うレベルの自然性を実現している. E2E-TTS は, 現在, 音声合成分野における最も重要なトピックの一つであり, 感情や細かい抑揚の制御を可能とする Controllable E2E-TTS など, さらなる技術の発展が期待されている.本稿では, E2E-TTS の研究のさらなる加速を目指し, 新たに開発したオープンソース E2E-TTS ツールキット ESPnet-TTS を紹介する.

Date
Mar 16, 2020 1:00 PM — 1:30 PM
Ryuichi Yamamoto
Ryuichi Yamamoto
Engineer/Researcher

I am a engineer/researcher passionate about speech synthesis. I love to write code and enjoy open-source collaboration on GitHub. Please feel free to reach out on Twitter and GitHub.

Related