PR
Part3 導入の容易さ追求型から大規模検索まで 多彩な機能、特徴を持つ製品が出そろう
エンタープライズサーチ製品の選択に必要なポイントを見る前に、製品の構成要素を見ておこう。インターネットの検索エンジンと同様、大別して「クローラ」、「インデクサ」、「サーチャー」という、3機能からなる(図6)。
サーチ製品の3大機能を知る
「クローラ(Crawler)」は、ファイルサーバーやデータベースサーバーなどに定期的にアクセスして、文書ファイルやデータを取得する機能。どのサーバーにどんな頻度でアクセスして情報を取得するかは設定しておく必要がある。頻繁に文書が更新される可能性の高いファイルサーバーに対しては1日1回、更新頻度が少ないサーバーには週に1回などと、設定するわけである。
クローラが取得したファイルから、検索のキーになるインデックス(索引)を作成するのが、「インデクサ(Indexer)」だ。ファイルに含まれる単語を抽出し、その単語とファイルを関連づけたデータベースを作成、維持する。英語などの場合、単語間にスペースなどの区切りがあるので単語抽出は単純だが、区切りのない日本語の文章は、そうはいかない。そこで日本語向けのインデクサでは主に「N-gram」と「形態素解析」と呼ぶ2つの方法、またはどちらか一方を使って単語を抽出する。
N-gramでは一定の文字数で機械的に文章を区切って語句を抽出する。例えば、「情報を取得」という文字列を1文字で区切るなら「情」「報」「を」…、2文字で区切るなら「情報」「報を」「を取」…となる。検索時のヒット率は高まるが、「報を」や「を取」など意味のない単語をインデックスに含んでしまう。
これに対し「形態素解析」は、辞書に基づいて文書に含まれる単語を抽出する。「情報を取得する」というテキストなら、「情報」「を」「取得」「する」と区切る。無意味な語句を抽出しないのがメリットだが、原理上、辞書にない製品名や略語などを抽出できない。ただしエンタープライズサーチ製品のベンダーは、これらのメリットを生かし、デメリットを排除する工夫を施している。2つの方法を適材適所で組み合わせる、辞書にない名詞を自動的に辞書登録する、などだ。なお形態素解析を発展させた「意味解析」という方式もある。
もう1つの「サーチャー(Searcher)」は、ユーザーインタフェースを担う機能である。検索キーワードの入力を受け付けたり、検索結果の表示を行う。加えて新しい文書順、キーワードを多く含む順など、検索結果の表示順序を制御する機能も持つ。使い勝手に大きく影響するだけに、導入の際にはしっかりチェックすべき機能だ。
次に、製品選択のチェックポイントを見ていこう。
Check Point1
導入の容易さと拡張性
エンタープライズサーチ製品は、サーチ対象として想定する文書ファイル数や価格、導入や運用の容易さなどによって、様々な違いがある。
例えばハードウェアと検索ソフトを一体にしたアプライアンス製品。導入に必要な作業はイントラネットにアプライアンス機を接続するだけの手軽さが最大の利点だ。グーグルの「Google Mini」や住友電工情報システムの「QuickSolution Lite」が、これに当たる。
これに対し、IBMの「OmniFind」やオートノミーの「IDOLサーバ」などソフトウェア製品の多くは、クローラ、インデクサ、サーチャーをそれぞれ別のサーバーにインストールできる。負担の重いインデクサの処理と、サーチャーの処理を分散すれば、パフォーマンスを高められる。いわば大規模ユースだ。
Check Point2
文書へのアクセス制限機能
開発中の製品に関わる文書や、社員の個人情報に関するデータ、そのほかの機密性の高い文書とデータ…。エンタープライズサーチ製品の導入において欠かせないチェックポイントが、こうした文書に関わるアクセス制限の機能だ。
エンタープライズサーチ製品の大半は、ユーザーの権限に基づいて検索結果の表示を変える機能を備えている。具体的には、(1)ユーザーIDやアクセスを管理するディレクトリ管理ソフト−LDAPサーバーやマイクロソフトのActive Directoryなど−と連携する機能、(2)ファイルサーバーや個々の文書に設定されているアクセス制御リスト(ACL)を取得する機能だ。LDAPやACLの情報を参照しながら、表示する文書を制限するのである。
見逃せないのは、参照の仕方によって応答性能が変わることだ。検索の都度、リアルタイムに参照する方式は、最新のアクセス権限に基づいて結果を表示できる利点があるが、ヒットした文書件数が多くなると、ACLチェックのために時間がかかり、応答が遅くなる。
そこで多くの製品は、インデックス作成時にACL情報を取り込む方式を採用している。アクセラテクノロジの「Accela BizSearch」では、ID管理ソフトによるアクセス権限の照合作業も行わない。「Accela BizSearch」へのログイン情報に基づいたアクセス権限に照らし合わせて、閲覧可能な文書をフィルタリング。あらかじめ取得済みのACLと照らし合わせて、検索結果を表示する(図7)。LDAPサーバーなどの利用が必ずしも一般的ではない状況では、現実的なアクセス権限管理と言えるだろう。

Check Point3
検索対象サーバーの自由度
電子メールサーバーの情報とイントラネットにある社内掲示板、専用システム上に蓄積されている顧客のクレーム情報、さらに顧客管理システムにある顧客情報を横断的に検索したい−。エンタープライズサーチ製品を導入する動機の1つが、こんな使い方である。
だが、あらゆるシステムのあらゆる形式の情報を、デフォルトで検索できる製品は存在しない。そこで検索対象にしたいシステムを検索するためのコネクタ(アダプタ)が用意されているかも重要なチェックポイントになる。
多くのコネクタを用意している製品の1つが、オートノミーの「IDOLサーバ」だ。Lotus Notesなどのグループウェア、コンテンツ管理ソフト「Documentum」など300以上のコネクタがある。当然、スクラッチ開発したアプリケーション用の汎用コネクタもある。
Check Point4
文書検索を補完する機能
キーワードによる検索を補完する機能に過ぎないが、検索方法を工夫する製品もきちんと抑えておきたい。まずファスト リサーチ&トランスファの「FAST ESP」は、インデックスを作成する際、抽出した語句を辞書に基づきカテゴリ分けする機能を備える(図8)。カテゴリには人名や地名、数値などのほか、企業固有の部品名や製品名、担当者名などを設定できる。

検索結果を表示する際、カテゴリ分けして表示できるので、カテゴリから検索結果を絞り込める。契約書を探す場合、具体的な契約内容が分からなくても、カテゴリとして契約先企業名や契約した商品名が分かれば、そこから目的の契約書を絞り込んでいける。
ジャストシステムの「ConceptBase Enterprise Search」は、ビジネス文書によくあるフォーマットや表データの項目を指定して検索できる機能を持つ。表計算ソフトによる不具合報告書を例に挙げよう。この報告書には項目として「届出日」や「状況」、「対策」があり、続いて具体的な日付や対策の内容が記されているとする。このような文書に対し、「対策」という項目を指定した上で、適切な検索キーワード(例えば「警報ブザー」)で検索すると、不具合報告書の中でも警報ブザーに関する対策を記した文書を探し出せるのだ(図9)。
一方、営業部門と開発部門のように部署が違うと、同じ検索キーワードでもヒットして欲しい文書が異なることは、容易に推察できる。これに対処する機能を持つ製品もある。グーグルの「Google検索アプライアンス」がその1つで、文書のインデックスに、部門や利用者ごとに重み付け情報を付与できる。
またウチダスペクトラムの「SMART/InSight G2」やGoogle検索アプライアンスを使ったインフォコムの「ECO on Google Search Appliance」では、検索結果を一覧表示する画面上にフォルダを作成。そこに検索結果を蓄積する機能を備える。他の人と検索結果を共有するためのフォルダも作成可能だ。
- データセンター見積もりは「DC完全ガイド」
最新iDCやテクノロジ・製品情報が満載。iDC事業者・サービスカタログで見積もり資料請求にも対応 - レンタルサーバー比較検索「RS完全ガイド」
共用・専用・VPS、国内1600以上のレンタルサーバー/ホスティングから最適なサービスを比較検索 - クラウド比較検索「クラウドサービス完全ガイド」
企業に役立つクラウド関連記事、製品・サービス情報




