米Amazon Web Services、ボット作成・音声合成・画像解析の3つのAIサービスを発表

2016年12月13日(火)IT Leaders編集部

リスト

米Amazon Web Servicesは2016年11月30日（現地時間）、AI（Artificial Intelligence：人工知能）を活用した3つのサービス、「Amazon Lex」「Amazon Polly」「Amazon Rekognition」を発表した。自然言語を理解できるアプリケーションや、音声やテキストで会話するアプリケーション、顔や物体、風景を認識できるアプリケーションを容易に開発できるようになる。

　発表した3つの「Amazon AI」サービスは、拡張性やコスト効率に優れた、高品質で高精度なAI（Artificial Intelligence：人工知能）機能を提供する。フルマネージドサービスであるため、Deep Learning（深層学習）アルゴリズムの構築や、機械学習モデルのトレーニング、インフラへの先行投資は不要になる。

　「Amazon Lex」は、AIアシスタント「Amazon Alexa」で使用されているASR（Automatic Speech Recognition：自動音声認識）技術とNLU（Natural Language Understanding：自然言語理解）を活用した、音声とテキストによる対話型インタフェースを構築するためのサービスである。様々なアプリケーションに高度な自然言語機能を容易に追加できるようになる。

　開発者はAWSマネージメントコンソールから直接、「天気を調べる」「航空券を予約する」など、自動タスクを実行する様々な対話型アプリケーション「ボット」を作成し、テストできる。作成したボットは、Webアプリケーション、SlackやFacebook Messengerなどのメッセンジャーアプリケーション、モバイルアプリケーション、コネクテッドデバイス内の音声を介して、場所を問わず使用できるようになる。様々な基盤で要求される認証にも対応し、基盤ごとにカスタムコードを記述することが不要になるため、ユーザーインタフェースデザインを簡素化できる。ボットへのトラフィックが増加した際は、自動で容量を拡張する。

　「Amazon Polly」は、ニュースリーダーやeラーニング基盤のような既存のアプリケーションに、人間らしい自然なスピーチ機能を容易に追加できるサービスである。モバイルアプリケーションからアプライアンスまで、スピーチ対応製品を開発できるようになる。

　AWSマネージメントコンソールやSDK（Software Development Kit）を使用してAmazon Pollyにテキストを送信すると、再生可能なオーディオストリームまたは標準音声フォーマットに保存されたファイルが返信される。24言語をサポートする47の音声の中から、様々なアクセントを持つ男性・女性の声を選択可能だ。様々なテキストフォーマットのコンテンツを高品質の音声で読み上げられる。大容量のテキストを音声に変換する際でも、高品質の音声を素早く送り返せる。変換したテキストの分だけ支払う料金システムを採用しているため、一度生成された音声はキャッシュに保存して、制限なく繰り返し再生できる。

　「Amazon Rekognition」は、画像を解析し、顔や物体、景色を認識するアプリケーションを迅速かつ容易に開発できるサービスである。Deep Learning技術を活用して、自動車やペット、家具など、物体や景色を自動的に特定し、信頼スコアを提示する。開発者は、そのスコアを用いてアプリケーションの利用者がキーワードで特定の画像を検索できるように、画像にタグ付けできる。

　画像内の顔を特定し、「顔が笑っている」「目が開いている」などの特徴を検出することもできる。顔比較や顔検索などの顔解析機能もサポートする。2枚の画像に映る人の顔が同じ人のものかを計測し、ほぼリアルタイムで参照写真から利用者を特定するアプリケーションを開発することも可能だ。画像から検出する数百万の顔のコレクションを作成して、コレクション内の参照画像から似たような顔を検索することもできる。初期費用は不要で、分析した画像や、保存した顔の特徴要素の数に応じて課金する。

リスト

トピックス

[Sponsored]

米Amazon Web Services、ボット作成・音声合成・画像解析の3つのAIサービスを発表

おすすめのホワイトペーパー

トピックス