Text-to-speech is a technology that synthesizes human voice from a text by computer. For services that require real-time interaction with users, such as LINE CLOVA smart speakers, text-to-speech systems are required to have high synthesis quality and generate speech at high speed. In this session, we will present the results of our research on GPU-based speech synthesis, which we developed jointly with NAVER and LINE. Typical conventional methods suffer from the slow generation or long training time. This session covers how we addressed these issues, based on a paper accepted for ICASSP 2020, a top conference on speech signal processing, with recent developments in related fields.
コンピュータによってテキストから人間の声を合成する技術は、テキスト音声合成と呼ばれます。LINE CLOVAのスマートスピーカーを初めとするユーザとのリアルタイムのインタラクションが必要なサービスでは、音声合成システムには合成品質が高いことだけでなく、高速に音声を生成できることが求められます。本セッションでは、高速かつ高品質な音声合成を実現するために、NAVERとLINEで共同で開発したGPUベースの音声合成の研究成果について発表します。従来の方法では、品質が良くても合成速度が遅い、合成速度は速い一方でモデルの学習に多大な時間がかかるなどの問題がありました。我々はそのような問題に対してどのようにアプローチしたのか、音声信号処理のトップカンファレンスICASSP 2020に採択された論文の内容を元に、近年の関連分野の発展を交えて紹介します。