開発ツール/プラットフォーム 開発ツール/プラットフォーム記事一覧へ

[新製品・サービス]

Watson日本語版のAPIを理解しよう、機械学習組み合わせ知的処理を実行

2016年3月1日(火)田口 潤(IT Leaders編集部)

AI(Artificial Intelligence:人工知能)がブームだ。CIOや情報システム責任者としては「分からない」「知らない」では済まされない。今、どんなことができるのか?AIソリューションの筆頭格である日本IBMとソフトバンクが開発した「IBM Watson」日本語版の機能を紹介しよう。

 2016年2月に日本語版がリリースされた「IBM Watson」。IBMのPaaS(Platform as a Service)である「Bluemix」上のAPI(Application Programming Interface)として提供され、Bluemixでアプリケーションを開発する際に知的な処理を組み込めるようになった。

 では実際にどんな処理ができるようになるのか?IBMはWatsonを「コグニティブ(認知型)システム」と呼ぶが、いわゆるAI(Artificial Intelligence:人工知能)やMI(Machine Intelligence:機械知能)の技術を使った代表的存在であることは間違いない。従って、WatsonのAPIを知ることは、AIの最先端の1つを知ることにつながる。以下で整理しておこう。

 IBMと共同開発者であるソフトバンクの発表文によると、日本語のニュアンスを理解・処理できるAPIは現時点で計6種が提供されている。Natural Language Classifier(自然言語分類)、Dialog(対話)、Retrieve and Rank(検索およびランク付け)、Document Conversion(文書変換)、Speech to Text(音声認識)およびText to Speech(音声合成)である。

 Natural Language Classifier(NLC)は、テキストを分類する機能。ユーザーが用意した教師データをもとに自動学習したclassifier(分類器)が短文やフレーズを分類する。分類とは、Twitterのつぶやきを例にすると、ニュースか出来事か意見か、あるいは個人的なことか仕事かなどに分けることだ。Watsonが知られるきっかけになった米国のクイズ番組『Jeopardy!』の頃はルールベースだったが、現在は脳の仕組みを真似たニューラルネットワークを基本とする深層学習(deep learning)を使って開発されている。

 Dialogは自然言語によって利用者と対話するための機能。例えばパスワードをリセットしたりクレジットカードを選んだりといった操作を、自然言語で操作するアプリケーションを作れる。ただし、質疑応答を想定すると、会話は枝分かれする形で進むため、あらかじめ想定問答に近い情報(台本)を入力しておく必要はある。

 Retrieve and Rank(RaR)は、いわば高機能の検索エンジン。オープンソースの検索エンジン「Apache Solr」を使い、文書から質問(単語)と関係しそうなものを抜き出しておく。ここまでは検索エンジンそのものだが、機械学習によるRank機能によって利用者の関心の高い回答を出せるように優先度を変えるのがRaRの特徴だ。

 Document Conversionは、PDFやWord、HTMLといった異なるフォーマットのコンテンツを、RaRのようなIBM Watsonのサービスで使用できるフォーマットに変換するための機能。テキストやJSON形式、HTML形式に変換する。地味なAPIだが、様々なコンテンツを扱うWatsonには必須だろう。

 Speech to TextとText to Speechは説明不要かも知れない。Speech to Textは音声認識APIであり、音声をテキストに変換しつつ結果を返す。英語(米英)、日本語、スペイン語、ポルトガル語、アラビア語などに対応する。単純にテキストに変化するだけでなく、特定の言葉やフレーズを検出することもできる。

 一方のText to Speechは英語、フランス語、ドイツ語、イタリア語、日本語、スペイン語などに対応する。ただし英語は女性が2パターン、男性が1パターンから選択できるというふうに発話できる音声に違いがある。日本語やイタリア語は女性の声だけだ。

 以上がWatson日本語版で利用可能なAPIだ。だが、英語版にはもっと多くのAPIがある。このページにあるメニューは18種。その中にはAlchemyLanguageや、Concept Expansion、Language Translationなど言語依存のAPIと、AlchemyVisionや、Visual Insightsのように言語非依存のAPIもある。

 例えばAlchemyVisionは、画像を認識して物体や人、テキストを抽出する機能。深層学習の技術を使っているが、事前に学習済みなので改めて学習させる手間は不要だ。画像がアップされたURLやイメージファイルをポストすると、顔や文章を認識し人を特定する。ちなみにAlchemyとは「錬金術」のこと。ここでは異なる意味を抽出する言葉で使われているようだ。

 英語版のAPIもBluemix上で利用できる。日本語に加え、このレベルのことができるのかということを試すといいだろう。

関連記事

Special

-PR-

Watson日本語版のAPIを理解しよう、機械学習組み合わせ知的処理を実行AI(Artificial Intelligence:人工知能)がブームだ。CIOや情報システム責任者としては「分からない」「知らない」では済まされない。今、どんなことができるのか?AIソリューションの筆頭格である日本IBMとソフトバンクが開発した「IBM Watson」日本語版の機能を紹介しよう。

PAGE TOP