[新製品・サービス]

深層学習で少量の音声データから自然な音声を作成、NTTテクノクロスが音声合成ソフト新版

2017年12月5日(火)日川 佳三(IT Leaders編集部)

NTTテクノクロスは2017年12月5日、テキストデータを音声で読み上げる音声合成ソフト「FutureVoice Crayon」の新版を発表、同日販売を開始した。新版では、音声の合成にディープラーニング(深層学習)を活用した。これにより、少量の音声データから人の声と遜色ない肉声感と明瞭感のある自然な音声を作成できるようになったとしている。価格(税別)は、要問い合わせ。

 FutureVoice Crayonは、テキストデータを音声で読み上げる音声合成ソフトである。最大の特徴は、音声合成の技術としてディープラーニングを採用したこと。イントネーションや声質のもととなる音声データベースを利用し、異なる話者の音声データから読み方やアクセントを補うことによって、所望の話者の少量の音声データからその話者の自然な音声合成を実現する。

図1●ディープラーニング(深層学習)を活用した音声合成のイメージ(出所:NTTテクノクロス)図1●ディープラーニング(深層学習)を活用した音声合成のイメージ(出所:NTTテクノクロス)
拡大画像表示

 ディープラーニングを採用したことで、少量の音声データから声のバリエーションを簡易に増やせるようになったほか、従来の音声合成技術よりも遥かに自然な声を実現したとしている。これにより、これまで音声合成では置き換えが困難であったナレーションやガイダンスにも使えるようになるなど、大幅な用途拡大が見込めるとしている。

 日本語は53話者、外国語は10言語22話者を用意した。これらの話者は、いずれもディープラーニングによって作成したものである。基本的な使い方は、これら話者の中から所望の話者を選択して利用するというものである。要望によって、学習用の音声データを用いた話者の作成や、ユーザーのイメージに合わせた話者の作成にも応じるとしている。

 背景には、コンタクトセンターでの自動音声案内や、音声対話サービスやロボットによる受付案内など、音声合成技術の活用シーンが広がっているという状況がある。従来の技術では、より人の声に近づけ、さらに声のバリエーションを増やすためには、費用負担が大きいことが課題だった。

関連キーワード

ディープラーニング / 深層学習

関連記事

深層学習で少量の音声データから自然な音声を作成、NTTテクノクロスが音声合成ソフト新版NTTテクノクロスは2017年12月5日、テキストデータを音声で読み上げる音声合成ソフト「FutureVoice Crayon」の新版を発表、同日販売を開始した。新版では、音声の合成にディープラーニング(深層学習)を活用した。これにより、少量の音声データから人の声と遜色ない肉声感と明瞭感のある自然な音声を作成できるようになったとしている。価格(税別)は、要問い合わせ。

PAGE TOP