[市場動向]

NICT、何語なのかを入力音声だけで識別する言語識別技術を開発

2018年10月19日(金)IT Leaders編集部

情報通信研究機構(NICT)は2018年10月18日、人の発話が何語であるのかを入力音声のみから識別する、8言語(日・英・中・韓・タイ・ミャンマー・ベトナム・インドネシア)対応の言語識別技術を開発したと発表した。

 発表した言語識別技術では、言語識別に必要な発話の特徴を精度よく抽出しすることに加え、高速演算できるニューラルネットワークを提案し、1.5秒程度の短い発話でも0.15秒以内に識別する。これにより、何語を話しているか分からない外国人の言葉も即座に識別し、言語設定は不要で音声認識や自動翻訳ができるようになる。

 NICTでは、多言語音声認識・機械翻訳・音声合成の研究開発に取り組んでおり、スマートフォン用アプリケーション「VoiceTra」を実証実験のために無料公開している。音声アプリケーションの大半は、入力される言語が何語であるかをあらかじめ指定する必要がある。また、相手が話している言語がわからない場合には、何語かを指定すること自体が困難だった。

 これを解決する方法としては、入力発話が何語なのかを識別する言語識別技術がある。従来の一般的な方式では、10秒程度の長い発話でないと識別が困難であるため、実際の音声アプリケーションでは使いにくいという課題があった。

 NICTは、この課題を解決するために「知識蒸留」を用いて、言語識別に必要な発話の特徴を精度よく抽出できる、長い発話用のニューラルネットワークを変換して、短い発話でも識別精度が高く、かつ、リアルタイムで識別可能な小規模ニューラルネットを構築する方式を提案した。

 この方式により、1.5秒程度の短い発話でも即座(0.15秒)に識別できる技術を開発し、8言語(日・英・中・韓・タイ・ミャンマー・ベトナム・インドネシア)で90%以上の識別率を実現したとしている。

 同技術によって、これまで必要であった入力言語の事前指定が不要となるため、何語を話しているかわからない外国人の言葉も即座に識別し、音声認識・機械翻訳ができるようになる。

 NICTは今後、識別言語数の拡張、識別精度の向上を図るとともに、同機能をVoiceTraなどの音声翻訳アプリケーションに実装するという。また、民間企業にもライセンスする予定だ。

関連記事

Special

-PR-

NICT、何語なのかを入力音声だけで識別する言語識別技術を開発情報通信研究機構(NICT)は2018年10月18日、人の発話が何語であるのかを入力音声のみから識別する、8言語(日・英・中・韓・タイ・ミャンマー・ベトナム・インドネシア)対応の言語識別技術を開発したと発表した。

PAGE TOP