開発ツール/プラットフォーム 開発ツール/プラットフォーム記事一覧へ

[新製品・サービス]

国語研とワークスアプリ、単語同士の類似性が分かる「単語ベクトル」を構築、高精度な検索を可能に

2018年12月26日(水)IT Leaders編集部

ワークスアプリケーションズのAI研究機関であるワークス徳島人工知能研究所は2018年12月25日、自然言語処理の資源の1つである「単語ベクトル」に関して、人間文化研究機構国立国語研究所と共同研究協定を締結したと発表した。

 国立国語研究所が持つ100億語規模の日本語データベース「国語研日本語ウェブコーパス(NWJC)」と、ワークス徳島人工知能研究所が開発したオープンソースの形態素解析ソフト「Sudachi」を組み合わせることによって、高精度な単語ベクトルを構築する(図1)。

図1:国立国語研究所とワークス徳島人工知能研究所による共同研究の概要(出典:ワークスアプリケーションズ)図1:国立国語研究所とワークス徳島人工知能研究所による共同研究の概要(出典:ワークスアプリケーションズ)
拡大画像表示

 単語ベクトルとは、単語の特徴を数値化したものである。単語ベクトルを用いることで、コンピュータは単語の類似性や関連性を捉えることができる。コンピュータによる検索や翻訳、テキストマイニング(情報抽出)、分析、自動会話(チャットボット)などに利用できる。

 例えば、「野球」や「サッカー」など、人間であれば双方ともに「スポーツ」と認識できる単語であっても、コンピュータ上では類似性があることを判断できない。しかし、ある単語がほかの単語とどのように出現しているかを学習し、単語の性質を数値化することで、それぞれの単語がどの程度似たものかを判断できる。

 この結果、文字列一致だけでなく、単語の意味を考慮した文書の検索や、トピックの分類が可能になる。自然言語処理の精度向上につながる。なお、共同研究による成果は、オープンソースとして無償で公開するという。

関連キーワード

ワークスアプリケーションズ / 自然言語処理

関連記事

国語研とワークスアプリ、単語同士の類似性が分かる「単語ベクトル」を構築、高精度な検索を可能にワークスアプリケーションズのAI研究機関であるワークス徳島人工知能研究所は2018年12月25日、自然言語処理の資源の1つである「単語ベクトル」に関して、人間文化研究機構国立国語研究所と共同研究協定を締結したと発表した。

PAGE TOP