ここまで来た音声技術・今後の展望 / Current progress on speech technologies and its future prospects @ LINE DEV DAY 2020

Abstract

Speech processing technologies such as automatic speech recognition (ASR) and speech synthesis has rapidly progressed. Furthermore, new research fields such as acoustic scene/event detection have appeared. In this session, two engineers from LINE (Yusuke Kida and Ryuichi Yamamoto) will talk about current progress of ASR and speech synthesis. From Doshisha University, associate prof. Keisuke Imoto will talk about current progress of acoustic scene/event detection in which Japanese researchers made remarkable contributions, e.g., invitation of a flagship conference DCASE. Although progress of deep learning has a strong influence, we would like to deep dive into how specific elements in speech processing connects with deep learning and leads to technological progress. We would also like to discuss about common technological elements among speech processing fields and specific elements to clarify characteristics of each field, and we will discuss about future prospects.

Date
Nov 25, 2020 4:40 PM — 5:20 PM

Abstract (ja)

人の音声をテキストに変換する音声認識技術、テキストから人の音声を生成する音声合成技術をはじめとした音声処理技術が目覚ましい速度で進歩を続けている。さらに、音声に限らないドアの開け閉めの音など一般の音を識別する音響シーン・イベント検出技術などの新しい技術分野が拓けつつある。本セッションでは、LINEから2名のエンジニア(木田祐介・山本龍一)がパネリストとして登壇し、音声認識・音声合成の現状を語る。さらに、同志社大学の井本桂右准教授に登壇いただき、今年国際会議(DCASE)を日本に誘致するなど、日本の研究者の活躍が目覚ましい音響シーン・イベント検出技術の分野の現状を語っていただく。これらの技術分野の進歩には深層学習の進歩が強い影響を与えているが、音声処理特有の要素がどのようにして深層学習と絡み合い技術進化につながっているか掘り下げていきたい。また、様々な音声処理分野で、分野間で共通要素として進展が進む技術要素と特有の要素の分析を通し、各技術分野の特性を明らかにしていきたい。そして、今後どのような方向性で技術が進化していくか、将来の展望について議論していきたい。

Ryuichi Yamamoto
Ryuichi Yamamoto
Engineer/Researcher

I am a engineer/researcher passionate about speech synthesis. I love to write code and enjoy open-source collaboration on GitHub. Please feel free to reach out on Twitter and GitHub.

Related