「独自の分散ファイルシステムを核に“全方位”のデータ活用基盤を創る」─マップアール

2018年10月29日(月)川上潤司（IT Leaders編集部）

リスト

企業が扱うデータの量も種類も爆発的に増える中で、さらにリアルタイム処理へのニーズも高まりを見せている。真のビジネス価値に昇華させるには、どのようなデータ活用基盤が求められるのか。この領域にフォーカスし、機能に磨きを掛けてきたプレーヤーの1社が米マップアール・テクノロジーズ（MapR Technologies）。日本法人でソリューションエンジニアを務める板垣輝広氏にマーケットの動向と戦略を伺った。

──企業におけるデータ活用は従前からの大きなテーマですが、とりわけ昨今の状況をどうとらえていますか？

　かつてのデータ活用といえば基幹業務システムでとらえる売上実績など、いわゆるビジネスデータの活用が中心で、データウェアハウス（DHW）に代表されるようなRDB由来のテクノロジで大方のところは対処できていました。ところが企業がハンドリングできるデータの種類や量が様変わりして、いよいよもって活用レベルを抜本から上げなければならない時代が幕開けた。ここで活用基盤にも新機軸を求める動きが顕著になってきたととらえています。

　もちろん、ある期間にどれだけの売上があったかという“過去”のデータを見ることも大事ですが、この瞬間に市場はどう動きがあるのか、顧客一人ひとりがどういう行動をしているのか……。カスタマー360という言葉が象徴するように全方位で“今”や“近未来”を捉える必要が出てきたのです。WebのアクセスログとかSNSでの口コミ情報とか、使えるものはとにかく使ってみようと、あの手この手が繰り広げられているのは多くが知るところ。静観していては競合がどんどん先に行ってしまいます。ビッグデータで言われる「Volume」や「Variety」が本当の意味でリアルになってきたとも言えるでしょう。

Hadoopの基本はバッチ処理

──データ活用基盤に対する要望も自ずと変わってきます。Apache HadoopはじめOSSコミュニティで開発される成果物への関心も一気に高まりました。

　こうした変革期に注目を集めるようになった考え方として「データレイク」があります。まさにデータの湖。いくつもの川から様々なタイプのデータが流れ込んできて、一個所に膨大な量が漏れなく蓄えられる。必要に応じて、そこからデータを抽出して活用しようとのアプローチです。

写真1：マップアール・テクノロジーズの日本法人でソリューションエンジニアを務める板垣輝広氏

　データレイクを実装する急先鋒となったのが皆さんご存じのHadoop。もっとも、Hadoopって、基本はバッチ処理なんです。DWH時代にあったような、夜のうちにバッチでETL処理をして翌朝までにデータマートを更新するような使われ方が中心でした。データ量の増大に柔軟に応えるスケールアウト型のHadoopに置き換わったところでバッチはバッチ。アウトプットを活かすまでに、相応の時間がかかってしまう。ビッグデータの黎明期にはこれでもよかったんですが、さらにIoTなどが本格化するにつれて限界も見えてきました。

　ビッグデータの3つめのキーワードとして「Velocity」が挙げられますが、これに関して残念ながらHadoopはミートしきれなかった。そこで出てきたのがApache Sparkです。蓄えられたデータを同じクラスタ上で分散並行処理するのはHadoopのMapReduceと同じですが、大きく異なる点は、いちいちディスクに書くんじゃなくてメモリーを巧く使って処理の融通性や高速性を担保しようという発想です。さらに、IoTの本格化に呼応するようにインプットの部分をどうにかしようということで、ストリーミング処理、別の言い方をすればメッセージング処理を司るものとしてKafkaが出てきたのも時代の必然ですね。

この記事の続きをお読みいただくには、
会員登録（無料）が必要です