データマネジメント データマネジメント記事一覧へ

[技術解説]

Part3 導入の容易さ追求型から大規模検索まで 多彩な機能、特徴を持つ製品が出そろう

2009年2月27日(金)

中堅中小企業や部門向けから、大企業の全社向けまで、今や多彩なエンタープライズサーチ製品が出そろっている。きちんと調べさえすれば、ほとんどの企業、組織においてニーズにフィットする製品が見つかるといってもいい。ここでは、導入の容易さと拡張性、文書へのアクセス制限機能、検索対象の自由度などについて、製品選択のポイントを解説する。

エンタープライズサーチ製品の選択に必要なポイントを見る前に、製品の構成要素を見ておこう。インターネットの検索エンジンと同様、大別して「クローラ」、「インデクサ」、「サーチャー」という、3機能からなる(図6)。

図6 一般的な検索の仕組み

サーチ製品の3大機能を知る

「クローラ(Crawler)」は、ファイルサーバーやデータベースサーバーなどに定期的にアクセスして、文書ファイルやデータを取得する機能。どのサーバーにどんな頻度でアクセスして情報を取得するかは設定しておく必要がある。頻繁に文書が更新される可能性の高いファイルサーバーに対しては1日1回、更新頻度が少ないサーバーには週に1回などと、設定するわけである。

クローラが取得したファイルから、検索のキーになるインデックス(索引)を作成するのが、「インデクサ(Indexer)」だ。ファイルに含まれる単語を抽出し、その単語とファイルを関連づけたデータベースを作成、維持する。英語などの場合、単語間にスペースなどの区切りがあるので単語抽出は単純だが、区切りのない日本語の文章は、そうはいかない。そこで日本語向けのインデクサでは主に「N-gram」と「形態素解析」と呼ぶ2つの方法、またはどちらか一方を使って単語を抽出する。

N-gramでは一定の文字数で機械的に文章を区切って語句を抽出する。例えば、「情報を取得」という文字列を1文字で区切るなら「情」「報」「を」…、2文字で区切るなら「情報」「報を」「を取」…となる。検索時のヒット率は高まるが、「報を」や「を取」など意味のない単語をインデックスに含んでしまう。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
登録済みの方はこちら

IT Leaders 雑誌版、電子版をご購読の方、会員登録済みの方は下記ボタンよりログインして続きをお読みください

初めての方はこちら

IT Leaders 会員になると
会員限定公開の記事を読むことができます
IT Leadersのメルマガを購読できます

関連記事

Part3 導入の容易さ追求型から大規模検索まで 多彩な機能、特徴を持つ製品が出そろう中堅中小企業や部門向けから、大企業の全社向けまで、今や多彩なエンタープライズサーチ製品が出そろっている。きちんと調べさえすれば、ほとんどの企業、組織においてニーズにフィットする製品が見つかるといってもいい。ここでは、導入の容易さと拡張性、文書へのアクセス制限機能、検索対象の自由度などについて、製品選択のポイントを解説する。

PAGE TOP