[技術解説]

主要DWH製品比較─分散処理やインメモリー技術で大量データの分析を高速化

「情報分析」と「行動」を直結させるBI Part5

2011年2月22日(火)IT Leaders編集部

分析対象となるデータの増加に伴い、DWH製品はパフォーマンス向上に拍車をかけている。 そこには分散処理やデータ圧縮、インメモリーやSSDの採用など、さまざまな工夫が見られる。 主要なDWH関連製品の処理を高速化する仕組みを中心に特徴をまとめた。

スピーディーで的確な意思決定を支えるBIシステムを具現化するにあたって、DWHにはよりシビアな処理性能が要求されるようになってきた。しかも、分析対象のデータ量は増加の一途をたどっている。そんな状況下、DWH関連のベンダー各社は、独自の工夫で性能アップにしのぎを削っている。

並列処理で性能向上を図るDWHアプライアンス

DWHに関し、このところ最もホットな話題の1つが、アプライアンス製品の急増だ。事前検証を済ませたハードとソフトを組み合わせて提供するというそれは、1つには短期導入を可能とするメリットをもたらした。さらに、そこには固有の技術力が結集されており、ギリギリまでチューニングされた環境を手に入れられるという側面も見逃せない。

主要なDWHアプライアンス製品を表5-1にまとめた。並列処理機構によって高速化やスケーラビリティを追求する動きは共通しつつも、そこに生かされている技術は各社各様だ。

表5-1 主要なDWHアプライアンス一覧
表5-1 主要なDWHアプライアンス一覧
※1:既設のラックにノードを格納するため、ノード搭載数はハードウェアに依存 ※2:管理用やBI用、フェイルオーバー用に割り当てるノードも含む ※3:最小構成でもノード用ラックとデータ用ラックの2ラック構成となる。1ラックに9台のノードを搭載した場合、ラックの最小構成台数は15台となり、ディスク容量は202.5TBとなる

日本オラクルの「Oracle Exadata Database Machine X2-8」は、汎用RDBをベースにしたアプライアンスだ。従来型のDWHの場合、ともするとストレージからDBサーバーにデータ転送する処理がボトルネックとなった。Exadataでは、40Gb/秒のInfinibandで接続することで帯域を確保するとともに、一部の処理をストレージ側に担わせることで転送データを削減。例えばテーブルをフル走査するような処理で効果を発揮する。さらにデータ圧縮も施すことでデータ転送に伴う性能劣化を防いでいる。

日本ネティーザの「TwinFin」は、最初からDWH用途に特化した独自のハードウェア処理機構を備えることで高速化を図っている。MPP(超並列処理)型で動作する検索ユニットに、ディスクから読み出した圧縮データの解凍や、列や行の絞り込み検索などを担う専用のFPGAを搭載するなどし、プロセサへの負担を減らすことで処理におけるボトルネックを解消する。

マイクロソフトが2011年2月に発表予定の「SQL Server Parallel Data Warehouse」は、同社が2008年に買収したDWHベンダー、データアレグロ社の技術を活かす。各ノードが専用ディスクを持つMPPの処理機構をCPUのコア単位に拡張した「ウルトラ・シェアドナッシング」と呼ぶ方式を採用。処理量に応じてI/Oやスループットが最適化され、結果的に高速化につながるとしている。

この分野では老舗と言える日本テラデータが2010年11月に発表したDWHアプライアンスは、3種のデータ圧縮機能を使い分け、ネットワークを流れるトラフィック量を減らす仕組みを備える。EMCジャパンが2010年12月に発表した「Greenplum Data Computing Appliance」は、大量のデータをロードする際、クラスタ内のすべてのサーバーでバランスを取りながら並列にロードする機能に特徴がある。

メモリー/SSD活用でディスクのボトルネック解消

メモリー上にデータを展開し、ハードディスクへのアクセスを回避することで処理遅延を解消する動きも活発だ。SAPジャパンが2010年12月に発表した「SAP High-Performance Analytic Appliance」はデータ圧縮技術を用い、実データの容量以上のデータをメモリー上に配置して高速処理する。NECの「データウェアハウス・ソリューション」もオラクルの「Oracle Database 11g」が備えるインメモリー技術を活用し、ディスクを用いた同等のDWHと比べて平均で9.6倍高速化する。

磁気ディスクの代わりにSSDを用いる製品も増えている。日本テラデータの「Teradata Solid State Extreme Performance Appliance 4600」は、SSDを採用して処理を高速化。磁気ディスクを用いる場合に比べて処理速度を最大18倍高められるという。日本IBMもSSDを搭載する「IBM Smart Analytics System 5600S」を投入済みだ。

テーブル構造を工夫しデータの圧縮率を向上

DWH向けのデータベースにおいても、レスポンス向上を図るために各種の工夫が盛り込まれている(表5-2)。フォーディーネットワークスの「4D DAM」は、データ抽出に伴うテーブル結合(JOIN)を繰り返すことで増加しがちな処理負荷を抑える仕組みを備える。「テーブルを結合する際、どのテーブルのデータを配置するのかを関数として定義しておくことでデータの重複を回避する。独自のテーブル構造を持つことで、他社製品のようにデータを圧縮することなくテーブルを軽量化できる」(専務取締役 西田泰弘氏)。

表5-2 主要なDWH向けDB一覧
表5-2 主要なDWH向けDB一覧

サイベースの「Sybase IQ」や日立ソリューションズの「EXASOL」、KSKソリューションズの「Infobright」はテーブルをロー単位ではなくカラム単位で保存する。不要なカラムを省くことでデータを軽量化。これがプロセサやメモリーの負担を減らし、パフォーマンス低下を防ぐ。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
関連キーワード

DWH / BI / Oracle / Netezza / IBM / NEC / Hadoop / Greenplum / SAP / データレイク / Teradata

関連記事

トピックス

[Sponsored]

主要DWH製品比較─分散処理やインメモリー技術で大量データの分析を高速化分析対象となるデータの増加に伴い、DWH製品はパフォーマンス向上に拍車をかけている。 そこには分散処理やデータ圧縮、インメモリーやSSDの採用など、さまざまな工夫が見られる。 主要なDWH関連製品の処理を高速化する仕組みを中心に特徴をまとめた。

PAGE TOP