[イベントレポート]

大規模データ処理が身近な存在に、クラウド発の技術が本格活用期へ

Strata Conference 2011

2011年3月30日(水)堀田 有利江(ITジャーナリスト)

クラウドが拡げるデータ活用力、安全性への配慮も旬のテーマに──クラウドで日々磨かれ続ける技術が、企業の情報活用力を押し広げている。“超”が付くほどの大量データを対象に集計や分析を施す分散処理技術の進化はその典型例だ。情報活用の可能性が広がる一方で、セキュリティ対策にも新たな発想で取り組む必要性が高まっている。

米国カンファレンス報告 レポート1
2011年2月1日〜3日 米サンタクララ/O'reilly Media

2011年2月1日〜3日、米カリフォルニア州サンタクララで、O’reilly Media主催の「Strata Conference 2011」が開催された。インターネット上を主な舞台に増大し続けるデータが生み出す新たな価値と、それに伴う今後の進化に着目したカンファレンスだ。IT技術者のみならず、データ活用に関わる様々な専門家や、新たなタイプのデータ処理技術を駆使することで生まれる新ビジネスに関心を寄せる人々1200人以上が集まった。

昨今、より多くの情報がインターネット上で共有されるようになるにつれ、膨大なデータの中から価値ある情報を効率的に見つける方法がますます重要になっている。同カンファレンスでは、そうした大規模データ、いわゆる「Big Data」の探査や分析、可視化、それを実現するために必要な高速データ処理技術、そしてそれらがもたらすであろう新たなビジネス機会の可能性について講演や議論が展開された。

背景
SQL一辺倒だった世界に一石

これまでも、様々な大規模データ処理技術や分析手法、それらをビジネスに活かすビジネスインテリジェンス(BI)や意思決定支援システムなどの取り組みはあった。主にリレーショナルデータベース(RDB)が使われSQLで処理するのが一般的だった。

ところが、ここにきてHadoopに代表される分散処理の技術が急速に進化し、膨大なデータを対象とする集計・分析の領域に新たな手法が持ち込まれつつある。

Hadoopは、Googleが検索エンジン用に開発した大規模データ分散処理システム、MapReduceをオープンソースとして実装したソフトウェアフレームワークだ。当初は、Yahoo!、Facebookといったネット企業が数テラ〜ペタバイトにおよぶ大規模なログ分析などに利用していたが、現在では金融機関や通信会社のような一般企業が活用する例も出てきた。

安価なサーバーの集合体であるクラウド環境と、Hadoopのようなオープンソースを活用することによって、大量データの分析環境が手軽に整備できる。高価なハードウェアやソフトウェアが必ずしも必要ないという点が、企業ユーザーの関心を引きつける1つの背景となっている。

注目セッション
GoogleとTwitterの事例

会場では、具体的なサービス/ツールとして、どのようなものが注目を集めたかをかいつまんで解説しよう。

セッションの1つに登場したGoogleは、大量データ処理に関連したクラウドサービスとして、「BigQuery」、「Google Fusion Table」、「Visualization API」、「Google Refine」などを紹介した(表)。

「BigQuery」は、前述のHadoopやデータウエアハウスなどで扱う大規模なデータに対し、SQLに似た命令文でデータ抽出・分析することを可能にした大規模並列クエリサービスである。「Google Fusion Tables」はWeb上のDBサービス。CSVやxls形式などのデータを複数のソースから取り込めるのに加え、ヒートマップや円グラフなど多種多様な表現で視覚化できるのが特徴だ。「Visualization API」は、Google Spreadsheets などのデータソースから、SQLに似た命令言語を用いて行と列から成る2次元データを取得しデータを視覚化するJavaScript API。「Google Refine」は、データ集約の際などに必要となるクレンジング作業を容易にするためのツールである。

別のセッションでは、Twitterのデータ分析担当者であるKevin Weil氏が登壇(写真1)。同社におけるデータ分析やデータマイニングなど、大規模なリアルタイム処理で使われているシステムの概要を紹介した。例えば、位置情報(Geolocation)関連データや、各種分析結果データの管理に、Cassandraと呼ばれる分散データベースを活用。CassandraはもともとFacebookで開発され、オープンソース化されたものだ。分散処理を前提とした耐障害性や一貫性についての配慮に力が注がれているのに加え、単純なKVS(キーバリューストア)よりも柔軟性の高いカラム型のデータ構造を持てる特徴を評価して導入したという。

写真1 Twitterでデータ分析担当を務めるKevin Weil氏。Cassandraの活用に言及した
写真1 Twitterでデータ分析担当を務めるKevin Weil氏。Cassandraの活用に言及した
名 称 概 要
BigQuery 大規模データに対し、SQLに似た命令文でデータを抽出・集計する分散処理サービス
Fusion Tables CSVやxls形式などの異種データソースを統合した上で視覚化するサービス
VisalizationAPI 外部データソースから、SQLに似た命令文で2次元データを取得し視覚化するJavaScript API
Google Refine データクレンジング(一連のデータセットに整合性をもたらす作業)を容易にするツール

展望
ポストWeb2.0時代の到来

これら2社がテクノロジー寄りだったのに対し、ビジネスSNSを展開するLinkedInは、大量データの活用例を会場に示した。具体的には、このカンファレンスへの参加者が、どのようにつながっているかを図解したソーシャルグラフ(人脈相関図)を紹介し、会場を沸かせた(写真2)。

写真2 LinkedInが会場で示したソーシャルグラフ。カンファレンス参加者が、どのようにつながっているかを図解している
写真2 LinkedInが会場で示したソーシャルグラフ。カンファレンス参加者が、どのようにつながっているかを図解している

InMapsと呼ばれるこのウェブサービスは同社サイトでベータ版(Labs)として既に提供済みだ。ユーザー同士の関係性の深さを分析し、それを色分けした上でグラフ化している。

このように米国企業は、様々なタイプの新たな大規模データ処理技術を駆使し、実際のビジネスに活用する動きが活発化している。今後は、大企業に限らず、あらゆる企業で可能になってくるだろう。

コンシューマ分野を中心に磨かれてきたWeb技術が今、ビジネスの世界にも拡大しようとしている。この“ポストWeb2.0時代”、テクノロジーの革新が、企業活動により大きなインパクトを与える可能性を予感させる。

(堀田 有利江=ITジャーナリスト)

関連キーワード

Hadoop / Google / MapReduce / BigQuery / Twitter / R&D

関連記事

トピックス

[Sponsored]

大規模データ処理が身近な存在に、クラウド発の技術が本格活用期へクラウドが拡げるデータ活用力、安全性への配慮も旬のテーマに──クラウドで日々磨かれ続ける技術が、企業の情報活用力を押し広げている。“超”が付くほどの大量データを対象に集計や分析を施す分散処理技術の進化はその典型例だ。情報活用の可能性が広がる一方で、セキュリティ対策にも新たな発想で取り組む必要性が高まっている。

PAGE TOP