[新製品・サービス]

EMC、信頼性や管理性を強化した企業向けHadoopを提供

2012年1月25日(水)

EMCジャパンは2012年1月19日、オープンソースの大規模分散処理ソフトウェア「Apache Hadoop」を企業向けに再構築した「EMC Greenplum HD Enterprise Edition(以下、Greenplum HD)」の販売を開始した。

Greenplum HDはApache Hadoopをベースに独自の機能拡張を施したディストリビューション。同分野ではClouderaやIBMなどのベンダーが先行しており、EMCも米MapR社からOEM提供を受けて、ライバルを追う。米国では2011年9月に提供を開始。リクルートなど一部の企業が先行利用を開始している。

Apache Hadoopとの差異化のポイントは主に3つある。まずはパフォーマンス。ハードウェアの限界性能を引き出せるようソフトウェアのアーキテクチャを再設計した。ロック排除によって並列処理を最適化させたほか、I/Oの量を削減するビルトイン圧縮を採用するなどパフォーマンス向上に努めている。実装言語もJavaからC/C++に変更、ガーベジコレクションによる影響を排除した。Apache版との互換性は100%維持しつつも、2~5倍の性能向上を実現しているという。

従来、Apache Hadoopが抱えていた課題に対応し、企業利用に必要な信頼性や可用性も担保した。例えば、従来は分散ファイルシステムのメタデータを集中管理する「ネームノード」が単一障害点になるという課題があった。Greenplum HDではネームノードを分散配置し、いずれかのノードに障害が発生した場合も運用を継続できるようにした。分散処理のとりまとめを行う「ジョブトラッカー」にも同様の措置を施し、耐障害性を高めている。

さらに管理機能も充実させている。例えばNFSをサポートし、サーバーがHadoopのファイルシステムをストレージとして利用できるようにした。Apache Hadoopでは独自のファイルシステムを採用しているためアプリケーションからデータを直接書き込むことが難しい。ツールなどを使ってストレージに保管されたデータをロードしなおす必要があった。分析対象のデータをHadoopのファイルシステムに直接書き出すようにしておけば、データの投入やロードに要する時間を短縮できる。その他にも、データのバックアップ・リカバリを支援するスナップショット機能を追加するなど、これまで弱点とされていた個所に手当てした。

EMCジャパンは同日、Hadoopによる分散処理システムを専業とするノーチラス・テクノロジーズとの協業を発表。Hadoop向けバッチ高速化フレームワーク「Asakusa Framework」とEMC Greenplum HDを組み合わせたソリューションをパートナー経由で販売する。「Apache HadoopとGreenplumでは設計の思想が違う。パフォーマンスの向上もさることながら、商用のライセンスにして企業が“普通に使える”ものとなった。それが最大の特徴だろう。顧客向けのシステムを作る為にはGreenPlumが必要」(ノーチラス・テクノロジーズ 代表取締役 副社長 神林飛志氏)。

関連記事

EMC、信頼性や管理性を強化した企業向けHadoopを提供EMCジャパンは2012年1月19日、オープンソースの大規模分散処理ソフトウェア「Apache Hadoop」を企業向けに再構築した「EMC Greenplum HD Enterprise Edition(以下、Greenplum HD)」の販売を開始した。

PAGE TOP