[技術解説]

技術解説4〜重複排除 (Part 6)

2011年4月19日(火)

データを小分けして徹底比較 2重の書き込みを許さない ディスクに書き込むデータ群から同一の部分を見つけてじき出し、容量を節約する−。 これが「重複排除技術」のコンセプトである。 一連の処理はどのような方法で進められているのか。 基本的な仕組みと、最新の工夫について解説する。折川 忠弘(編集部)

業務で日々発生し保存するデータの中には、「重複」しているものが少なくない。単純な例では、議事録を記した文書ファイルをメールに添付して10人に送信すれば、それだけでメールサーバー上には同じものが10個存在することになる。プレゼン資料の一部に変更を加えて別名で保存する場合も、実質的には多くの部分がダブっている。データベースにおいて、一部のフィールドだけが異なるレコードが大量に存在するようなケースも珍しくない。

チリも積もれば山となる、との格言を持ち出すまでもなく、この重複がストレージ容量の浪費につながっている。そこで書き込もうとするデータの中から共通する部分を見つけ出し、実際に保存するのは1つだけという仕組みを徹底させるのが重複排除の基本的な考えだ。

重複排除技術は、特にバックアップ用途で注目を集めている。企業システムにとって、データ保全の観点でバックアップは欠かせない要件だ。とはいえ、すでに大量のデータを抱え、しかもますます増え続けている状況下では、バックアップ用のストレージ領域を可能な限り効率的に使いたいという要請が強いからだ。重複排除によってデータ量を減らせれば、遠隔のDR(ディザスタリカバリ)システムにも転送しやすくなるという期待もある。

キメ細かい判定は処理速度に影響を及ぼす

技術的に、どのように重複を判別しているのか。一般的にはデータを小さい単位のブロックに分割し、それぞれにフィンガープリント(FP)と呼ぶ識別情報を割り当てる。詳しくは、ハッシュ関数を使って当該ブロックを代表する値を算出したものをFPとする。FPが合致すれば、ブロックは同一のものと見なす。処理しようとするブロックが「既存」、つまり1度保存したものと合致すれば書き込まず、既存ブロックの参照情報(ポインタ)のみを記録することでムダをなくすのが基本的な仕組みとなる(図6-1)。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
登録済みの方はこちら

IT Leaders 雑誌版、電子版をご購読の方、会員登録済みの方は下記ボタンよりログインして続きをお読みください

初めての方はこちら

IT Leaders 会員になると
会員限定公開の記事を読むことができます
IT Leadersのメルマガを購読できます

関連記事

技術解説4〜重複排除 (Part 6)データを小分けして徹底比較 2重の書き込みを許さない ディスクに書き込むデータ群から同一の部分を見つけてじき出し、容量を節約する−。 これが「重複排除技術」のコンセプトである。 一連の処理はどのような方法で進められているのか。 基本的な仕組みと、最新の工夫について解説する。折川 忠弘(編集部)

PAGE TOP