[海外動向]

【PARTNERS 2014報告】「Data Lakeに対応せよ」米テラデータの新製品と新技術の面白味

2014年10月30日(木)田口 潤(IT Leaders編集部)

ビッグデータからData Lake(データの湖)へ、そしてAnalytics3.0へ−−。こんなデータアナリティクスのこれからが、米テラデータ(Teradata)のユーザー企業組織が主催するカンファレンス「PARTNERS 2014」で明らかにされた。同カンファレンスで紹介されたテラデータの最新ソリューションを紹介する。Data Lakeに挑むITの姿を象徴しているからだ。

 少し前まで、UDAは図1の上半分を対象にしていた。構造化データはデータウェアハウスの「Teradata」で、Hadoop上に蓄積される非構造のビッグデータは「Teradata Aster」というソフトウェアで、それぞれ処理する(いずれもハードに組み込んだアプライアンス製品がある)。

 ここで、「ビッグデータを処理するのがHadoopのはず。なぜAsterが必要なのか」という疑問がわくかも知れない。確かにHadoop(テラデータの場合は提携する米Hortonworksのディストリビューション)は、MapReduceというデータの抽出や整形の仕組みを備える。しかし、使いこなすにはJavaでプログラムを書く必要があり、一般には難度が高い。

 そこでAsterの出番になる。Asterは広く普及しているデータ操作言語「SQL」でMapReduceの処理ができるよう、MapReduceでよく使われる処理70種を関数の形で備える。SQL文に関数名を記すだけで、非構造データを処理できる。このようなSQLを介して非構造データを扱う方式は、現在では米SAS Instituteや米Oracleなども提供しており、急速に普及しつつある。

Data Lake(データの湖)から“飲み水”を生み出す

 ところがデータ量の爆発的増大が見込まれる今、このような狭いUDAでは不十分な状況が生まれている。その要因が最近、少しずつ聞かれるようになった概念「Data Lake」である(図1の下部中央)。Data Lakeは「いわゆるData Martをペットボトルとすれば、Data Lakeは水源である。様々な川から流れ込む水が溜まる湖のようなものだ」と説明される。

 B2C(Business to Consumer:企業対個人)かB2B(Business to Business:企業間)かによって多少の違いはあるが、企業は日々の取引データや業務ファイル、IT機器のログやWebサイトのアクセスログ、監視カメラの画像データなど、大量のデータを蓄積している。

 そこに今後は、工場の生産機械などのセンサーデータや、保有する車両の位置データ、さらには外部のソーシャルデータやオープンデータも加わる。それぞれ出所もフォーマットも、ボリュームも異なるが、企業が扱うべきデータの一部であることは間違いない。その集合体をData Lakeと呼ぶわけである。

 必然的にデータ分析の対象は特定の業務データやビッグデータでは済まず、Data Lakeになる。ではData Lakeから自由にデータを取り出し、分析するためには何が必要か?テラデータが今回、発表したのは、実のところ、そのための製品や技術だった(図1の緑の部分)。

 まずLakeの中には様々なDBMS(DataBase Management System)がある。それにアクセスして必要なデータを抽出するための新機能が「QueryGrid」である(図2)。単一の問い合わせで複数のDBMSに同時にアクセスでき、その際、DBMS側でデータを処理することで転送量を減らす。大量データの転送には、不可欠な工夫だ。

図2:必要なデータを抽出する「QueryGrid」図2:必要なデータを抽出する「QueryGrid」
拡大画像表示

 QueryGridでアクセスできるDBMSは、NoSQL型ではMongo DBやHbase、cassandraなど、SQL型ではOracleに対応している。そのほかのDBMSにも順次対応していく。

 Oracle上のデータに関してはTeradataに転送せずに利用できる仕組みもある。転送N対Nのデータ転送をサポートするという意味で、テラデータはQueryGridを「データファブリック」と呼ぶ。2015年出荷予定の次期Teradataに実装する予定である。

非構造データのメタデータを生成する「Loom」

 一方、Data Lakeに蓄積されるデータの多くは蓄積優先で、管理性は二の次であるケースが少なくない。これを放置したままではLakeにどんなデータがあるか、そのデータはオリジナルか複製かなどが分かりにくく、活用しにくい。

 そこで2014年7月に米Revelytixの「Loom」という製品を買収。今回、「Teradata Loom」としてリリースした。Hadoopに蓄積された膨大なファイルをスキャンし、新規のファイルがあれば作成日や作成者、データの内容などを把握し、メタデータを生成するソフトウェアである。

関連記事

Special

-PR-

【PARTNERS 2014報告】「Data Lakeに対応せよ」米テラデータの新製品と新技術の面白味 [ 2/3 ] ビッグデータからData Lake(データの湖)へ、そしてAnalytics3.0へ−−。こんなデータアナリティクスのこれからが、米テラデータ(Teradata)のユーザー企業組織が主催するカンファレンス「PARTNERS 2014」で明らかにされた。同カンファレンスで紹介されたテラデータの最新ソリューションを紹介する。Data Lakeに挑むITの姿を象徴しているからだ。

PAGE TOP