PR

不明確なデータ入力ルールが、システムの活用を阻害する 第2回

情報システムを経営に生かす-その根源となるのはデータの品質である。SOA(サービス指向アーキテクチャ)やクラウドコンピューティングなど技術革新の激しいITの世界だが、データ品質の維持管理の視点が欠けていては恩恵を享受することはできない。「活用されるシステム」を具現化するための、データマネジメントの勘所を解説する。

今回は、同一システム内でデータ入力の基準やチェック観点・体制等の運用ルールが定まっていないことに起因するデータ品質の問題と、その対応策を説明する。(前回説明した3つの問題のうち、図1のAの部分)

データの品質低下は様々な要因で起こり得る
図1 データの品質低下は様々な要因で起こり得る

「名寄せ(なよせ)」という言葉を耳にしたことがあるかもしれない。例えば、結婚して姓が変わってしまった場合でも、旧姓と新姓の人は別人ではなく、名前、住所、電話番号等の他の属性との相関から判断して同一人物であることを示すため、新旧の姓、2つのデータを紐づける処理が、名寄せの端的な例である。

公的年金の未払い問題では、結婚や転職を繰り返す中で、年金受給権者のデータが分散、欠落、さらに記載上の誤りが生じ、名寄せの必要性がクローズアップされている。

「コンピュータを使えば、そうした情報をすばやく見つけ出して、関連付けられるのではないか」と思われるかもしれない。

確かに、氏名・社名、住所、電話番号などを検索時の手がかりにして、ある程度の名寄せ処理を自動化できるツールは多々あるが、事態はそう簡単には解決されない。データの類似性、相関関係から「そのデータが同じ人か違う人か」を判定するときの基準やルールをどう設定するかというのが厄介な問題の一例だ。また、「一定期間の記録が存在しない」等の“データ欠落”の問題、意図的かどうかを問わず入力されたデータの値の“意味不明”の問題(例えば、申込書上「生年月日」が判読できなかったので、ダミーの「99999999」が入っている等)など、問題は多く存在する。皆さんも自社内で使っているシステムの中のデータを思い浮かべたら、多くの方は「名寄せツールを導入したらそれで問題解決」とはならないことが容易に想像つくだろう。今回は、購買履歴データを使ったわかりやすい具体的な事例で、データ品質が経営改善に大きなインパクトを持ち得ることを説明したい。

(次ページでは、 購買履歴データがなぜ“データ無法状態”のまま放置されるのかについて解説!)

IT Leaders 毎月無料でお届けいたします

本誌は、読者登録いただくことにより、毎月無料でみなさまのお手元まで直接お届けいたします(書店などでは販売していません)。

企業の情報システムを担当する方々や事業部門のIT担当の方々、およびIT関連プロフェッショナルの方々を対象に、実践的に役立つ情報を掲載、幅広く業務にご活用いただけます。

IT Leaders新規購読お申し込みはこちらから
Ads by Google