PR

データの重複を徹底的に洗い出す バックアップなどで資源の有効活用促進

重複排除ソリューション

データの重複個所を検出して排除する「重複排除」技術に注目が集まる。バックアップのみならず本番環境でもデータが爆発的に増えているからだ。専用ソフトウェアやアプライアンスなど、重複排除機能を実装する製品の最新動向を追った。

「転ばぬ先の杖」。企業システムにおけるデータのバックアップは、こう表現される。ただし、情報爆発の言葉通りに企業が扱うデータの量は増加の一途をたどっている。重い体を支えるには「杖」にも工夫が欠かせない。

膨大なデータを効率的にバックアップする手法として脚光を浴びている技術が「重複排除」である。詳しくは後述するが、データを数KB単位に細分化し、同じものを抽出して徹底的に取り除くのが基本的な仕組みだ。限られたディスク(あるいはテープライブラリ)の容量を有効活用する上で、要注目の技術だ。

ファイル単位の限界を超える

重複排除の仕組みを解説する前に、これまで一般的だったバックアップの方法を整理しておこう。

膨大なデータを毎日フルバックアップするのは、それに要する時間やハード資産の兼ね合いから非現実的だ。実際には、休業日の日曜日にフルバックアップを実行。それを起点として平日は、日々増えた(変更のあった)分のデータだけを新規にバックアップするという週次サイクルを回す企業が多い。ここには「差分バックアップ」と「増分バックアップ」がある。

差分方式は、起点とするデータからの変化を日々バックアップする。これに対し、増分方式は、前日からの変化をバックアップ対象とする。後者の方が毎日のバックアップ量が小さくて済むが、リストアが必要となった時の作業手順が複雑になる(図1)。

差分バックアップと増分バックアップの違い
図1 差分バックアップと増分バックアップの違い

差分、増分のいずれにしても、「変化」はファイル単位でとらえるのが一般的だ。しかも同じファイルを異なるフォルダに複数保存する場合、それらすべてがバックアップ対象となる。Aというファイルを添付したメールを10人に同報すると、この日のメールサーバーの差分/増分バックアップでは、Aは10個も重複して保存される。

こうした無駄に切り込むのが重複排除の技術である。ファイル単位でバックアップ対象を見極めるのではなく、さらに細かなセグメントに分割して内容を比較。ここで同じセグメントは1つしかバックアップしない仕組みを徹底し、対象データを大幅に削減する(図2)。大元のファイルが、どのセグメント群で構成されていたかという「紐づけ」情報は別途管理している。

重複排除の仕組み
図2 重複排除の仕組み

眼前に玩具のブロックを思い浮かべてほしい。赤、青、黄のブロック合計100個で城を組み立てたとする。これをファイルと見立てて重複排除を当てはめると、保存するのは色別のブロック3つのみ。別途、どこにどのブロックが使われていたかという情報があればよいという考え方だ。「保存先容量を重複排除で最大25分の1まで縮小できた実績がある」(日本IBM ソリューション担当部長 システムズ&テクノロジー・エバンジェリスト 佐野正和氏)。

重複排除機能を備える製品を次ページの表にまとめた。大きくはソフトウェア、バックアップ専用アプライアンス、ストレージに分かれる。それぞれ特徴や機能を概説しよう。

バックアップソフト
どこで重複排除するかに選択肢

バックアップソフトは、どの場所で重複排除を実施するかで大きく2つに分かれる。1つは、PCやファイルサーバーで実施するもの。バックアップ用ストレージにデータを転送する前に対象データを減らせるため、ネットワークへの負荷を軽減できる。もう1つは重複排除専用のサーバー/ストレージに導入するソフトだ。ネットワークにある程度の帯域を必要とするが、クライアントPCの負担はない。

これまでは、どちらか一方に機能を絞ったものが中心だったが、2009年末から今年にかけて、ユーザーが自由に設定できる製品が相次ぎ登場した。シマンテックが2010年2月に発表した「Net Backup 7」と「Backup Exec 2010」は、重複排除の実施をクライアントか専用サーバー/ストレージかを選べるほか、他の重複排除機能を備えるアプライアンスやストレージと連携して高速処理する機能も持たせた。2009年11月に発表したアクロニス・ジャパンの「Acronis Backup & Recovery 10」も同様に、重複排除の実施場所を選択できる。

ネットワークとクライアントへの負荷軽減という点において、IBMの「IBM Tivoli Storage Manager Fast Back V6.1」はユニークなアプローチで改善を図る。PCでファイルを更新すると、その瞬間に差分データをバックアップ用ストレージに転送。蓄積した差分データに対して重複排除を実施する。

専用アプライアンス
高速処理するインラインが普及

バックアップ専用アプライアンスは、どのタイミングで重複排除を実施するかで2タイプある。「ポストプロセス方式」は一度データをストレージに保存した後、バックアップ作業とは別の時間帯に重複排除を実施する。作業を分けることでバックアップ処理のパフォーマンス低下を防止するのが狙いだ。一方の「インライン方式」は、データをディスクに保存する前に重複排除を実施する。バックアップと並行して処理するため時間がかかるが、ポストプロセス方式のようにデータを一時的に保存するディスク領域が不要となる。

一般的にインライン方式はポストプロセス方式に比べて処理が遅いと言われるが、独自機構により処理速度を高める製品もある。その1つがデータドメインの「DataDomain」だ。同製品は、セグメントの比較をメモリー上で処理するなどの独自技術によって高速化を図っている。データドメインは2009年7月にEMCが買収。EMCはサーバー側で重複排除する「Avamar」と合わせて製品展開する(図3)。

EMCジャパンの「Avamar」と「DataDomain」の違い
図3 EMCジャパンの「Avamar」と「DataDomain」の違い

ストレージ
データ保護機能を重視

NASやSANといったストレージに重複排除を適用する製品もある。ネットアップの「FASシリーズ」は、2007年から重複排除機能を備えて市場投入している代表例だ。ユーザーが頻繁にアクセスすることを想定し、データの信頼性確保に向けた工夫を盛り込む。4KB単位でセグメント比較しながら重複排除しつつ、疑わしきものについては、さらに1バイト単位で厳密なマッチングを施す。

バックアップ用途の製品に比べると、重複排除機能を備えるストレージはまだ少ない。だが、「仮想化環境では仮想マシンをクローンすることから重複排除率が高くなる傾向にあり、ここでのストレージとして利用すれば約70%のデータ削減効果を見込める」(ネットアップ マーケティング部 ソリューションマーケティング担当 シニアマネージャー 滝川大爾氏)という言葉からすると、今後の充実が見込まれる。 (折川 忠弘)

表1-1 重複排除機能を備えた主要なバックアップソフト(クリックで画像を拡大)
表1-1 重複排除機能を備えた主要なバックアップソフト
表1-2 重複排除機能を備えた主要なバックアップアプライアンス(クリックで画像を拡大)
表1-2 重複排除機能を備えた主要なバックアップアプライアンス
表1-3 重複排除機能を備えた主要なストレージ(クリックで画像を拡大)
表1-3 重複排除機能を備えた主要なストレージ

■本稿で紹介した製品の最新情報を「Find-IT」でチェック!
重複排除ソリューション | Find-IT(ファインドイット)

あなたの評価 : なし 平均 : 1 (投票数:1)

IT Leaders 毎月無料でお届けいたします

本誌は、読者登録いただくことにより、毎月無料でみなさまのお手元まで直接お届けいたします(書店などでは販売していません)。

企業の情報システムを担当する方々や事業部門のIT担当の方々、およびIT関連プロフェッショナルの方々を対象に、実践的に役立つ情報を掲載、幅広く業務にご活用いただけます。

IT Leaders新規購読お申し込みはこちらから
Ads by Google