[新製品・サービス]

「なぜデータの分析・活用は進まないのか?」 原因を考え抜いたツールを前田建設が販売へ

2013年9月9日(月)IT Leaders編集部

“ビッグデータ”というほど大規模ではないものの、企業が日々の業務で獲得・蓄積する大量のデータ。その分析や活用は、できているだろうか?――。この問いに自信を持って「Yes!」と回答できる企業は少数派だろう。

CSV形式ですべてのデータを活用可能に

 まず正規化/非正規化の問題に関しては、実のところDIは何ら機能を提供しない。システム部門の担当者が手作業なり何なりでデータを非正規化し、テキスト形式(CSV形式)で書き出すことを前提にする。言わば力業だが、このやり方の利点はシステム部門と利用部門の間でどのシステムのDBを取り出すか、その際に必要な項目は何かなどを細かく議論する必要がないこと。「システム部門の負担をできるだけ減らすアプローチです。CSV形式で書き出してもらえば、DIで読み込めるようになります」(前田建設工業の石黒事業部長)。しかも分析用途なので、必ずしも高頻度でCSV化する必要はない。週次や月次など、必要の都度で十分という。

 システム担当者が関与する必要があるのはここまで。後は利用部門の担当者がDIを使って実施する。まず、あるDBのCSVデータをDIで読み込むと、すべてのデータ項目を網羅した表が複数できる。必要なDBの分だけこれを繰り返し、必要なデータすべてを表の形式でDIに取り込んでいく。この時に前田建設工業が開発したデータ処理ツール「CDS(Cellular Data System)」を使ってデータをクレンジング、つまり誤り修正や表記の統一を行う。単純な変換辞書とは異なり、集合論やトポロジーといった数学的手法を使うのでクレンジング効率は高いという。「それでも100%完全にとはいきません。でもツールで自動判別できない場合はアラートを出しますし、なにより人手で行うのに比べると遥かに楽なのが利点です」(同)。

 余談だが、CDSは國井利泰・東京大学名誉教授が提唱する「セル理論」に基づき、形式や表現方法の異なるデータを操作したり検索を行うためのツール(関連記事)。ユニークなツールなのだが、セル理論の難しさもあって、どんな業務にどう活用すればいいかが分かりにくい。そこでCDSの可能性を実証する狙いも込めて、前田建設はDIを開発した。

 話を戻そう。必要なすべてのデータがDIに読み込まれ、クレンジングもできた状態になった。ここまでくれば、あとはDIを使ってカラム、ローのどちらの軸であれ、キー項目を基準に複数の表を結合させたり、集計処理したりできる。壁の1つである複数のDBに存在する項目名の差異は利用者が見て判断。同じものと設定すれば、一瞬で同じものとして扱えるようになる(図1)。「DIを使いこなすのに多少の習熟は必要になります。しかしGUIベースなのでコマンドなどを覚える必要がないし、間違ったら前に戻ってやり直せる。当社内で実証しつつ実用化した結果では、Excelよりもかなり使いやすいとの評価を得ています」(同)という。

図1:異なるデータをCSVの読み込み、項目を統合する画面。
Excelに慣れた担当者なら、すぐ使えるようになるという
関連記事

Special

-PR-

「なぜデータの分析・活用は進まないのか?」 原因を考え抜いたツールを前田建設が販売へ [ 4/5 ] “ビッグデータ”というほど大規模ではないものの、企業が日々の業務で獲得・蓄積する大量のデータ。その分析や活用は、できているだろうか?――。この問いに自信を持って「Yes!」と回答できる企業は少数派だろう。

PAGE TOP