PR
不明確なデータ入力ルールが、システムの活用を阻害する 第2回
今回は、同一システム内でデータ入力の基準やチェック観点・体制等の運用ルールが定まっていないことに起因するデータ品質の問題と、その対応策を説明する。(前回説明した3つの問題のうち、図1のAの部分)
「名寄せ(なよせ)」という言葉を耳にしたことがあるかもしれない。例えば、結婚して姓が変わってしまった場合でも、旧姓と新姓の人は別人ではなく、名前、住所、電話番号等の他の属性との相関から判断して同一人物であることを示すため、新旧の姓、2つのデータを紐づける処理が、名寄せの端的な例である。
公的年金の未払い問題では、結婚や転職を繰り返す中で、年金受給権者のデータが分散、欠落、さらに記載上の誤りが生じ、名寄せの必要性がクローズアップされている。
「コンピュータを使えば、そうした情報をすばやく見つけ出して、関連付けられるのではないか」と思われるかもしれない。
確かに、氏名・社名、住所、電話番号などを検索時の手がかりにして、ある程度の名寄せ処理を自動化できるツールは多々あるが、事態はそう簡単には解決されない。データの類似性、相関関係から「そのデータが同じ人か違う人か」を判定するときの基準やルールをどう設定するかというのが厄介な問題の一例だ。また、「一定期間の記録が存在しない」等の“データ欠落”の問題、意図的かどうかを問わず入力されたデータの値の“意味不明”の問題(例えば、申込書上「生年月日」が判読できなかったので、ダミーの「99999999」が入っている等)など、問題は多く存在する。皆さんも自社内で使っているシステムの中のデータを思い浮かべたら、多くの方は「名寄せツールを導入したらそれで問題解決」とはならないことが容易に想像つくだろう。今回は、購買履歴データを使ったわかりやすい具体的な事例で、データ品質が経営改善に大きなインパクトを持ち得ることを説明したい。
(次ページでは、 購買履歴データがなぜ“データ無法状態”のまま放置されるのかについて解説!)
- データセンター見積もりは「DC完全ガイド」
最新iDCやテクノロジ・製品情報が満載。iDC事業者・サービスカタログで見積もり資料請求にも対応 - レンタルサーバー比較検索「RS完全ガイド」
共用・専用・VPS、国内1600以上のレンタルサーバー/ホスティングから最適なサービスを比較検索 - クラウド比較検索「クラウドサービス完全ガイド」
企業に役立つクラウド関連記事、製品・サービス情報



