[技術解説]

Hadoop関連製品・サービス一覧─主要ベンダーが相次ぎ市場参入、本格活用の環境が整う

急拡大するHadoop経済圏 Part4

2012年3月21日(水)緒方 啓吾(IT Leaders編集部)

Hadoopの登場から数年。先進ユーザーやベンダーが培ってきた技術やノウハウが製品・ サービスとして結実しつつある。商用ディストリビューション、アプライアンス、クラウドサービス、 技術サポート…。選択肢の充実は利用者の裾野を広げる。 Part4では主要ベンダーが提供するHadoop関連製品・サービスをまとめた。

緒方 啓吾 (編集部)

この1、2年でHadoop活用の敷居は大きく下がった。もともと、一般企業での利用を前提として開発されたソフトウェアではないこともあって、運用性や信頼性で課題があった。処理を記述するためにはMapReduceの作法を覚える必要があるし、データのロードにも手間が掛かる。ファイルシステムを管理するネームノードが単一障害点になるという問題もある。それらを解決する実作業はこれまで各利用者が負担してきた。

しかし、状況は変化しつつある。Hadoopの使い勝手を向上させるための周辺コンポーネントが充実してきたことはPart2でもみたとおり。さらに、2011年ごろから主要ベンダーが関連製品・サービスを相次ぎ市場に投入。先進ユーザーが試行錯誤の末に手にした技術やノウハウを利用できるようになった。業務利用の環境は整いつつある(図4-1)。以下、カテゴリー別に特徴的な製品・サービスを見ていこう。

図4-1 Apache Hadoopプロジェクトを中心にエコシステムが形成されつつある
図4-1 Apache Hadoopプロジェクトを中心にエコシステムが形成されつつある

ディストリビューション
企業向けに管理機能を強化
独自実装に取り組むベンダーも

Hadoop関連製品の最も代表的なものが商用ディストリビューションだ。Hadoopと周辺コンポーネントをまとめてパッケージとして提供する。各々の安定稼働はもちろん、コンポーネント同士の”相性”も事前に検証しているため、個別に調達する場合と比べて工数を削減できる。

Apache Hadoopプロジェクトでの成果を取り込むため、Hadoopや周辺コンポーネントのソースコードにはあまり手を加えず、管理ツールや技術サポートで差異化を図るものが多い。

最も代表的なのは、米クラウデラが企業向けに提供する「Cloudera Enterprise」。Apache Hadoopの主要コンポーネントをまとめた無償版にクラスタ管理ツールや技術サポートなどを付加したものだ。「クラスタ規模が10台以上になると人手での管理が難しくなる。本格的な業務利用にはツールのサポートが必要だ」(ジュゼッペ・小林 ジェネラルマネージャ)。

同社は、Hadoopの生みの親であるダグ・カッティング氏をはじめ、多数の技術者を擁するApache Hadoopプロジェクトの中心的な存在。多数の周辺コンポーネントを寄贈している。2012年2月27日には日本法人の設立を発表、国内市場の開拓に本腰を入れる。

日本IBMも企業向け「IBM InfoSphere BigInsights」の提供を2011年5月に開始した。スプレッドシート上でHDFSのデータを操作・閲覧できる「BigSheets」などの特徴的なツールを同梱。また、SQLによるHadoopジョブの呼び出し機能やHDFSのデータを読み出すためのユーザー定義関数をDB2やNetezzaなどの同社のデータベース関連製品に追加。製品同士の統合を図っている。

一方、ソースコードに手を加えて信頼性や可用性を企業利用に耐えうる水準まで引き上げる動きもある。

EMCジャパンが2012年1月から提供を開始した「EMC Greenplum HD Enterprise Edition」は、Apache Hadoopとの互換性を維持しつつファイルシステムを独自に再設計。単一障害ポイントだったネームノードやジョブトラッカーを冗長化した。また、データのロードの手間を省くためNFS機能を追加。サーバーから直接ファイルシステムにアクセス可能とした。その他、開発言語をJavaからC++に変更して性能向上を図るなど全面的に改修している。Part3で紹介したリクルートは、次期Hadoopインフラの候補として検証作業を進めている。同様の着想で、富士通やNEC、IBMも独自ファイルシステムの実装に取り組む。

2011年10月にはマイクロソフトがHadoop専業の米ホートンネットワークスと共同でWindows OS向けのディストリビューションを開発すると発表。5年以上に渡って開発してきた分散処理基盤「Dryad」のプロジェクト中止を決定。「エンジンを作ってもエコシステムが無ければ意味がない。今後はApache Hadoopプロジェクトに合流して開発を進めていく」(デベロッパー&プラットフォーム統括本部の萩原正義アーキテクト)

クラウドサービス
Hadoopの実行環境を時間貸しスモールスタートを支援する

クラウド上に構築したHadoopの処理基盤をサービスとして貸し出す事業者も登場している。

最も代表的なのはアマゾンウェブサービスが提供する「Amazon Elastic MapReduce」。”MapReduce”と銘打ってはいるが、実際には同社のクラウド上に構築したHadoopの実行環境を提供するサービスだ。MapReduceのジョブはAmazon EC2で実行し、入出力データはAmazon S3に保存する。

「年に一度だけしか実行しないようなバッチ処理に重宝する。処理ノード数に比例して処理性能が上がるので、夜間バッチの遅れをキャッチアップするためにスケールアウトするといったクラウドならではの使い方もできる」(クックパッド エンジニアの佐々木達也氏)

日立製作所や富士通も自社のクラウド上に構築したHadoop環境を貸し出すサービスを既に開始している。

アプライアンス/専用サーバー
検証済みのハードウェア環境でチューニングの手間を省く

Hadoopを巡る議論ではMapReduceによるプログラミングやデータの運用方法などに注目が集まりがちだが、インフラについても考えるべきことは意外と多い。例えば、プロセサとハードディスクのバランスによって拡張性や処理性能が変化するため、サーバーの選定には従来とは異なる視点が必要になる。動作検証やチューニングに掛かる工数も少なくない。

そうした課題を解決すべく日立製作所が2012年2月にリリースしたのが「HA8000-bd/BD10 X2モデル」。分散処理の性能を最大化させるよう設計したHadoop向けサーバーだ。42Uラックに最大320台のブレードを収納して集積度を高める。「Hadoopのバージョンアップのペースが速いため、現時点では環境構築やチューニングをオプションとして提供しているが、アプライアンスの開発も視野に入れている」(サービス・ソリューション本部の荒井達郎センタ長)。

一方、2011年10月に日本オラクルが発表した「Big Data Appliance」は「Cloudera Enterprise」を搭載したアプライアンスである。構造化データを前提とした既存のデータ活用インフラに非構造化データを取り込むためのETLツールとしての用途を想定。データベース製品にデータを引き渡すためのコネクタ群「Oracle Lorder for Hadoop」を備える。

また、NTTデータが2010年11月にリリースした「Lindacloud for Hadoop」は、分散処理性能とコストをバランスさせるためにハードウェアを自社開発したことで話題をまいた。Hadoopプログラムの開発を支援する独自フレームワークを搭載。プロトタイプの作成などの用途を想定する。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
関連キーワード

Hadoop / MapReduce / IBM / EMC / Greenplum / NTTデータ / ノーチラス・テクノロジーズ / Asakusa Framework

関連記事

トピックス

[Sponsored]

Hadoop関連製品・サービス一覧─主要ベンダーが相次ぎ市場参入、本格活用の環境が整うHadoopの登場から数年。先進ユーザーやベンダーが培ってきた技術やノウハウが製品・ サービスとして結実しつつある。商用ディストリビューション、アプライアンス、クラウドサービス、 技術サポート…。選択肢の充実は利用者の裾野を広げる。 Part4では主要ベンダーが提供するHadoop関連製品・サービスをまとめた。

PAGE TOP