ビッグデータからData Lake(データの湖)へ、そしてAnalytics3.0へ−−。こんなデータアナリティクスのこれからが、米テラデータ(Teradata)のユーザー企業組織が主催するカンファレンス「PARTNERS 2014」で明らかにされた。同カンファレンスで紹介されたテラデータの最新ソリューションを紹介する。Data Lakeに挑むITの姿を象徴しているからだ。
「ITインフラ、ソフトウェア、データ。企業ITを構成する3要素の中で、最も重要かつ価値が高いのは何か?」
この問いかけへの答が「データ」であることに異論を持つ人は少ないだろう。クラウドコンピューティングによりITインフラやソフトウェアの価値は相対的に低下。一方で潜在的な顧客ニーズの把握や新たな施策の立案、問題の原因究明、今後起きうることの予測などは、いずれもデータに依存するからだ。
では、次の問はどうだろう。
「あなたが所属する企業あるいは組織は、データの価値を十分に引き出し、享受しているか?」
自信を持って「Yes」と答えられる人は、多くはないはずだ。取引や決済の履歴データはともかく、顧客とのコンタクト履歴やWebのアクセスログ、機械などモノに関わるデータ、あるいは外部の組織が提供するデータなどなど。級数的に増加するデータに対して、それを活用するための組織体制やIT環境、手法が追いついていない。多くの場合、何からどう着手すればいいのか、その手がかりすらないのが実情かも知れない。
このような問題に対し、情報を共有したり議論したりする場を提供するのが米テラデータのユーザー企業組織が主催するカンファレンス、「PARTNERS」である。2014年は10月19日〜23日に米テネシー州ナッシュビルで開催された。
参加者数は米国を中心に世界各国から4000人強(日本からは約40人が参加)。DWH(Data Warehouse)/ビッグデータがテーマとはいえ、テラデータという分野特化型のいささか地味なベンダーの、それもユーザー組織が主催する点を考えれば、かなりの規模だろう。
期待に違わず、PARTNERS2014では多くの示唆を得られた。「ビッグデータと言われて久しいが、米国企業は本当にそれを分析・活用しているのか」「だとすれば、どんな分析環境を有しているのか」「構造化データと非構造データを統合したこれからのデータ分析(Analytics)環境はどんな姿か」といった点に関して、ある程度知ることができたからである。
以下では、PARTNERS2014において、米テラデータが発表した新技術や新製品を紹介する。基調講演で語られたことや、展示会に見るビッグデータ関連ツールの動向などについては別の記事で報告する。
「構造化データ+ビッグデータ」から「Data lake」へ
まず米テラデータのDWH/ビッグデータに関する製品や考え方、それを強化するべく同社が今回発表した製品や技術を紹介しよう。最新のビッグデータに関わる技術が集約されていると同時に、基調講演のメッセージを紐解く意味でも欠かせないと考えるからだ。重要なキーワードが「Data Lake(データの湖)」である。
まず図1を見て頂きたい。テラデータが提唱する「UDA(Unified Data Architecture)」を筆者なりに解釈し、まとめたものだ(関連記事『日本テラデータが新アーキテクチャと関連製品を発表、構造化/非構造化データをシームレスに分析可能に』)。

拡大画像表示
UDAはArchitectureとあるが、必ずしも特定の構造や基本設計のことではない。「明確な構造を持つリレーショナル・データだけではなく、Webログやマシン生成のデータ、画像データといった非構造データも、同じように分析可能にする仕組み、あるいはそれを可能にすること」といった、ある種の考え方である。
余談だが、テラデータは「どんなデータも何らかの構造を持つ」という理由から「非構造」という言葉は使わず、「多構造(Multi-Structure)データ」と呼んでいる。