PR
Part2 検索のチューニングや表示方法、情報のアクセス制御を考え抜く
サーチを生かす導入時のポイント
インターネットを使った情報検索は、今やほとんどのビジネスパーソンにとって、ごく日常的な行為になった。とはいえ、エンタープライズサーチの導入には注意が必要だ。検索結果の表示順の制御やアクセス制御など基本的な事項に留意しないと、活用が進まなかったり、機密情報が漏えいしてしまうリスクがある。まず企業情報システム担当者が、サーチ技術の導入時に留意すべき3つのポイントを整理しておこう。
Point1
サーチの基本原理を理解する
エンタープライズサーチを導入するに当たり、まずは簡単にサーチ技術の基本原理を理解しておきたい。
サーチ技術(あるいはそれを実現した製品)は、ほぼ例外なく「クローラ」と「インデックス」で成り立っている。ネットワーク上に分散したさまざまなシステムを定期的に巡回して情報をスキャンし、キーワードとその出現場所を集約。インデックスを構築するのがクローラである。インデックスは周知の通り、検索を高速化するための索引データベース。通常はインデックス内を検索するだけで、キーワードに関連する情報の所在を把握できる(図2)。

インデックスにより、高速な検索が可能だが、リレーショナルデータベースとは異なり、データ整合性を100パーセント保証するものではない。つまり確実に最新の情報を検索できるわけではなく、インデックスとファイルサーバーなどの情報が一致しないことがある。インデックスは情報の所在を管理しているに過ぎず、ファイルサーバーやグループウェア上の情報は日々更新されているからだ。インターネットの検索で検索結果から原本にアクセスしたときに、内容が修正されていたり削除されていたりするのはそのためである。この問題はクローラの巡回頻度を高めることで減らせるが、その分、システムの負荷は大きくなる。
Point2
企業利用の特性を確認する
企業利用を目的とするエンタープライズサーチと誰もが馴染み深いインターネット検索のエンジンは、基本原理こそ同じだが、求められる技術特性は異なる(表2)。
| 項目 | エンタープライズサーチ | インターネット検索 |
|---|---|---|
| データ量 | 数テラバイト級 | 数十ペタバイト級 |
| 対象ユーザー数 | 数百〜数千人規模 | 数億人規模 |
| データの多様性 | 右記に加え、業務システムのデータベースや特定アプリケーションのリポジトリなど | テキストファイル、ワード、エクセル、パワーポイント、HTML文書、PDFなど |
| セキュリティ要件(アクセス制御) | 極めて重要 | (サーチ提供者としては)さほど意識する必要はない |
| ランキングのアルゴリズム | キーワードの出現頻度などによる重み付け、管理者による評価、個々のユーザーによる評価や付加情報(タグ)付け | キーワードの出現頻度による重みづけ、リンク分析による自動処理(ページランク) |
| SEO悪用への対策 | 不要 | 必要 |
まずは拡張性。扱う情報量とユーザー数の面では、インターネット検索に比べ、エンタープライズサーチに求められる拡張性の要求はそれほど高くない。だが、検索対象となるデータの多様性という面では、エンタープライズサーチに高い拡張性が要求される。イントラネットの情報はもちろん、業務アプリケーションが管理するデータベースや、ロータスノーツのような特定アプリケーションのリポジトリなど、形式や構造が異なるデータを検索する必要があるからだ。
第2は安全性である。企業内の情報はセキュリティやコンプライアンスの観点から、内容に応じて社外秘や部外秘とするものも多い。このためエンタープライズサーチには厳しいセキュリティの要件があるのだ。たとえ検索条件と合致しても、権限がない人が情報を閲覧するのを防止するため、ユーザーの役職や業務内容に応じたきめ細かいアクセス制御が不可欠になる。
第3は検索結果の表示方法である。業務に用いる情報は、利用者の立場によって重要度が異なる。営業部門にとって3、4年前の技術文書は、価値が低いかもしれないが、開発部門にとっては大きなヒントになることがある。こうした理由から、検索結果の表示順位を決めるランキング方法を1つとっても、エンタープライズサーチにはインターネット検索に比べ複雑なアルゴリズムが求められる。
社内のユーザーにとってサーチ技術は、操作が簡単で身近な機能に違いない。だが導入後に品質やセキュリティの面で痛い目を見ないためにも、導入しようとしている製品が企業利用で求められる要件を満たしているかどうか、そもそもその要件は何かなどを、改めて確認しておく必要があるだろう。
Point3
緩やかなデータ統合と捉える
導入時のポイントとして最後に挙げておきたいのは、「エンタープライズサーチは、企業内の情報を仮想的に統合する手段である」という点だ(図3)。つまり、サーチは単なる文字列検索の技術ではない。

ポイント1で述べた仕組みから明らかなように、エンタープライズサーチはコンテンツを元の場所に保管したまま、所在をインデックスとして集約する。これによりユーザーはあたかも情報が一元管理されているかのような感覚で検索できる。
この仮想統合は、柔軟性や拡張性の点で、非構造化コンテンツ(情報)の検索に適している。ロータスノーツを検索対象に加える場合、ノーツのリポジトリをスキャンするクローラを用意すればよい。音声認識機能とサーチ機能を組み合わせて、動画コンテンツを検索対象に加えることも、技術的には可能になりつつある。
もちろん、ドキュメント管理システムを用いて、さまざまなコンテンツの複製を1カ所のリポジトリに物理的に統合する手もある。しかし企業システムの現状を考慮すると、物理的な情報の統合だけですべての要件に応えられるわけではない。企業内のコンテンツはファイルサーバーや業務システムのデータベースなど、広範囲に分散したシステムの中で、色々な形式で管理されているからだ。
あちこちに散逸し、しかも日々新たな情報が生み出されている中で、情報を1カ所に集約するのは容易ではない。仮に「作成したコンテンツは、必ずドキュメント管理システムに格納する」というルールを設けたとしても、徹底されない可能性がある。ユーザーにとっては作業の負担が増えるだけで、厳守できなくなるケースは多い。
成果を引き出す活用時のポイント
「エンタープライズサーチは、導入するだけで効果を発揮するターンキー・ソリューションではない」−。当たり前のことだが、見落としがちなことでもある。活用段階で検索結果を検証し、システムをチューニングすることで、ようやく期待通りの成果を手にできる。次に活用時のポイントを紹介しよう。ユーザーにとって「使えないシステム」になるのを防ぐために不可欠な留意点や、導入効果を比較的短期間で出しやすい適用分野、さらには、思わぬ効果が期待できる活用法など、4つのポイントについて見ていく。
Point1
ランキングに工夫を凝らす
活用時の極めて重要なポイントとなるのが、サーチ結果をどのような順番で表示するかである。逆に言えば、ユーザーが目的の情報にたどり着くまでに、サーチ結果を最初から最後まですべてチェックしなければないとすれば、活用が進まなくなってしまう。
サーチ結果の並び順は、情報の重要度を測るランキング用のアルゴリズムによって決定する。古くからあるアルゴリズムの1つに、キーワードの出現する頻度や箇所に基づく重要度判定の方法がある。指定したキーワードが文書のタイトル部分に含まれていたり、文書中で多く出現するほど重要だと判断して、検索結果の上位に表示する。他の文書ではあまり使われていない特殊なキーワードの重みを増す「TF-IDF」と呼ばれるアルゴリズムも一般的だ。
Googleがインターネット検索のエンジンに採用した「ページランク」と呼ばれるアルゴリズムは、ランキングに革新をもたらしたことは周知の通りである。このアルゴリズムでは、「多くのWebページからリンクされているWebページには大勢のユーザーに役立つ情報が書いてある」、と判断する。さらに重要なページからリンクされているページやアクセス数が多いページにも、相対的に価値が高い情報が含まれていると考えて、すべてのWebページの重要度を決定。重要なページほど検索結果の上位に示す仕組みになっている。
このアルゴリズムは、インターネット検索において効果的に機能しているが、エンタープライズサーチにそのまま適用するのは難しい。理由は大きく2つある。第1に、企業内のコンテンツは互いにリンクを張っていない場合が多い。第2に、企業内のコンテンツの数はインターネット上に比べてはるかに少ない。リンクとコンテンツが共に限られる状況では、統計的に個々のコンテンツの重要度を判定する仕組みが正確に機能しない可能性が高い。そのため、エンタープライズサーチならではのアルゴリズムを考えて活用する必要がある。
手立ては、いくつも考えられる。例えば、前述のキーワードの出現頻度や出現箇所に基づく方式に加えて、人為的に重み付けする方法がある。「本社部門が作成した公式通達は、支社や営業所が作成した類似のコンテンツより高い重要度を設定する」といった具合だ。

図4 タクソノミーとフォークソノミーの相乗効果
社内のユーザーに、コンテンツの重要度を評価してもらうのも有効だ。発見したコンテンツが役に立ったかどうかを評価する機能を、エンタープライズサーチに実装することで実現できる。ナレッジマネジメントでよく使われる手法であり、利用されればされるほど精度が向上する。一方、ユーザーがコンテンツに付加情報「タグ」を追加するのも手だ。「新入社員必読」というタグを文書に付加しておき、新入社員が検索した際に、結果の上位に当該文書を表示する。
このようにユーザーに情報分類してもらう手法を「フォークソノミー」と呼ぶ。「フォーク(人々)」と「タクソノミー(分類)」を組み合わせた造語である。管理者によるトップダウン的な分類と、ユーザーによるボトムアップ的な分類を組み合わせることで、エンタープライズサーチの価値を高められると期待される(図4)。
ランキング用のアルゴリズムは、企業ごとに独自の工夫を凝らす余地があり、エンタープライズサーチを自社に最適な形に仕上げる決め手の1つになる。現実には、最初から最適なアルゴリズムを実現するのは困難。エンタープライズサーチ技術や製品を導入したら終わりではなく、利用者の声を聞きながら調整・改良を続けていくことが欠かせない。
Point2
社内ポータルに実装する
導入時のポイント3で、「サーチは単なる文字列検索の技術ではない。情報統合の手段だ」と述べた。実はもう1つの側面がある。社内ポータルのナビゲーションをエンタープライズサーチ中心型にする方法がそれだ。
社内ポータルの画面設計に手を焼く企業は少なくない。企業内の情報は多面的で、階層型のメニューだけで分類・整理するのは思いのほか難しい。総務部や人事部といった管理部門別に分類する方法もあれば、営業担当向けや新入社員向けのように、ユーザー属性別に分ける方法もある。どれを採用したとしても誰もが満足できる階層構造にはなりにくく、目的の情報へのアクセス効率を高めるのは容易ではない。
ところが、社内ポータル用途にエンタープライズサーチを使えば、情報へのアクセス効率を改善できる。例えば「引っ越し 手続き」というキーワードで検索した際に、住所変更に必要な申請書類の情報を結果のトップに表示するよう、ランキングのアルゴリズムを調整する(図5)。これでインターネット検索と同じように、2ステップで目的の情報にたどりつける。

社内ポータルの活用の裾野が広がれば、検索キーワードの頻度を分析して、情報活用やシステムの使い勝手を高めることもできる。「交通費精算 入力方法」というキーワードの頻度が高い場合、経費精算システムの使いやすさに何らかの問題があると推察できる。そうであれば経費精算システムのマニュアルを社内ポータルの目立つ位置に表示する、マニュアルを分かりやすく書き直す、システムの使いやすさを改善するなど、問題を解決するための適切な対策を講じられる。
このようにエンタープライズサーチで使われたキーワードの履歴には、情報活用の重要な知見が隠れている。にもかかわらず検索履歴を有効活用できていないことが多いので、活用時のポイントの1つとして意識しておきたい。
Point3
文字列表記の“揺れ”を解消する
エンタープライズサーチの活用法として、あまり知られていないものもある。その1つが本誌2008年11月号の特集、「今こそ実践! マスターデータ統合」で指摘されていた名寄せ処理だ。
社会保険庁の年金記録問題で、被保険者や受給資格者の名寄せが問題になり、制度自体の信頼が揺らいでいることからも、名寄せの重要性は明らかだ。実際、企業内のさまざまな情報システムが管理している情報は本当は同一であっても、表記の微妙な違いにより別々の情報と扱われるケースがある。
典型が顧客の名称や住所の表記が“揺れる”ケースである。「株式会社インプレスビジネスメディア」、「(株)インプレスビジネスメディア」、「インプレスビジネスメディア」、「IMPRESS BUSINESS MEDIA」といった具合だ。これらは別会社なのか、同じ会社を示しているのか。それを正しく判断することは、営業方針の策定やマーケティング戦略の立案、顧客サポートを拡充するうえで欠かせない。そのため企業は多大な労力をかけてデータベースの内容を突き合わせ、名寄せをしなければならない。単独のシステム内でも表記揺れがあるのに、複数のシステムに分散している情報を対象に名寄せするのは、並大抵のことではない。
この作業にエンタープライズサーチを応用できる可能性がある。エンタープライズサーチ製品には、文字列類似性を評価して文字列間の類似性を判断したり、「インタフェース」と「インターフェース」のように同じ言葉の別表現を相互変換したりする機能を持つものが多い。この機能を活用できれば、名寄せというシステムが抱える永遠の課題の1つを解消しやすくなる。
Point4
アクセス制御で安全性を担保する
活用段階で慎重を期すべきなのがセキュリティ、具体的には情報へのアクセス制御である。アクセス制御が適切でないと、エンタープライズサーチの導入により、意図していない情報が全社に広く公開されてしまう可能性がある。
ただし、仮に問題が発生しても「エンタープライズサーチの導入が原因だ」と考えるべきではない。エンタープライズサーチによって、リスクが明らかになっただけのことである。問題の根源は、アクセス制御を適切に設定していなかったことだ。エンタープライズサーチを導入しなくても、遅かれ早かれ情報が漏れる可能性がある。
実際のアクセス制御は、ユーザーの所属や業務内容に応じて、「完全に公開」や「ファイル名のみ公開」、「完全に非公開」など、コンテンツごとに何段階かに設定する。ファイル名のみ公開するコンテンツについては、管理者の承認があれば内容の閲覧も可能とする設定も考えられる。
アクセス制御を有効に機能させるためにはユーザー認証が必要になる。このとき、エンタープライズサーチ用に新たにユーザー管理の仕組みを用意する方法も選択肢の1つだが、手間を考えるとのは現実的ではない。
今では多くのエンタープライズサーチ製品が、アクセス権限を設定済みの既存のディレクトリ管理システムや、既存システムの認証情報を取り込む機能を備えている。活用の勘どころは、こうした製品が持つ機能を理解し、使い切ることにある。
栗原 潔
テックバイザージェイピー 代表
- データセンター見積もりは「DC完全ガイド」
最新iDCやテクノロジ・製品情報が満載。iDC事業者・サービスカタログで見積もり資料請求にも対応 - レンタルサーバー比較検索「RS完全ガイド」
共用・専用・VPS、国内1600以上のレンタルサーバー/ホスティングから最適なサービスを比較検索 - クラウド比較検索「クラウドサービス完全ガイド」
企業に役立つクラウド関連記事、製品・サービス情報



