データマネジメント データマネジメント記事一覧へ

[データマネジメント2019]

現場主体の分析を支えるデータレイク――良し悪しを見極めるポイントとは?

2019年4月1日(月)

データ分析の目的が多様化する中、その円滑な実施に向け必須の存在となっているのが「データレイク」だ。データレイクを利用すれば、その仕組みからデータ品質を高く維持でき、より大きな分析成果を期待できる。「データマネジメント2019」のセッションでは、豆蔵の技術コンサルティング事業部でシニアコンサルタントを務める杉山光治氏が、データレイクが注目される背景や具体的な機能、活用事例を解説した。

多様化する分析に対応するためのデータレイク

豆蔵 技術コンサルティング事業部 シニアコンサルタント 杉山光治氏

 IT技術の急速な進化を背景に、デジタルトランスフォーメーションによる新製品やサービスの創出があらゆる企業に強く求められている。そこで鍵を握るのが膨大なデジタルデータから多様な知見を引き出すためのデータ活用であり、そのために近年、注目を集めているのが分析データの保管先となる「データレイク」だ。

 もっとも、データの保管場所には「データウェアハウス(DWH)」「データマート(DM)」なども存在する。データレイクはそれらと何が異なるのか。その点について、豆蔵の技術コンサルティング事業部でシニアコンサルタントを務める杉山光治氏は、「データレイクはデータを利活用したい人向けのデータの保管場所である点はDWHやDMと共通しています。ただし、構造化データに加え非構造化データも格納し、しかも、それらに一切手を加えることなくそのままの形で蓄積する点で大きく異なります」と説明する。

 データレイクへの関心が高まる背景には、分析ニーズの多様化/複雑化がある。従来、企業ではあらゆるデータをDHWに保管し、分析の目的ごとに個別設計したDMへデータを抽出することで各種レポートなどの定型分析が実施されてきた。ただし、分析ニーズが現場にも広がり分析要件も多様化することで、個別のDM設計では対応が間に合わなくなっている。データレイクはこの課題に応える個別分析に特化したデータの“器”だ。扱いに専門知識が必要なDWHやDMと異なり、データレイクは現場でも扱えるようインタフェースや機能が工夫されていることも特徴である。

データ品質を維持するデータカタログ

 データレイクが注目を集めるのには別の理由もある。データを単にため込むだけなら保管先にこだわる必要はない。だが、データ品質の維持となれば話は別だ。分析でより大きな成果を上げるには、データ品質が高く維持されていることが前提条件。しかし、データを保存し続けるだけでは不要なデータも次第に増え、いずれはデータ品質の低いデータスワンプ(データの沼)となる。対して半自動で分類/整理するデータレイクであれば、「データ品質を維持し続けることが可能なわけです」(杉山氏)。

 杉山氏によるとデータレイクは「データ収集」「セキュアな保管」「データカタログ」「データ活用」の4つの要素で構成される。このうち、データスワンプを回避する上で最も重要になるのがデータカタログなのだという。

 データカタログは図書館や書店の棚の分類に例えられる。「両者を比べると、大手書店などでは本をより手に取ってもらえるよう図書館と異なる分類で陳列されていることに気づくはずです。同様にデータでもデータカタログにより使われ方が変わり、データカタログを生成するカタログエンジンが分析の良し悪しを分けるのです」(杉山氏)

 書店で考えればデータカタログは陳列棚、カタログエンジンは陳列法を考案した書店員にあたる。そのうえで、本を手に取ってもらえない書棚がデータスワンプというわけだ。

データレイク活用の最新事例3つ

 豆蔵ではデータレイクのユースケースを3タイプに分類している。機会(Opportunity)を創出する「Oタイプ」、研究開発(R&D)の成功率を高める「Rタイプ」、そしてIoTによる生産性向上などを実現する「Iタイプ」である。

 杉山氏は3タイプそれぞれにおいて、豆蔵が整備を支援中のデータレイクの最新事例を紹介した。

 最初はマーケティング/セールス機会の創出を目的とした大手建設会社のケースである。同社では社内外のデータベースやファイルサーバに散在する建築プロジェクトの製図やプレゼンテーション資料、議事録などの非構造データを収集。それらを豆蔵のデータレイクサービスにアップロードすることデータカタログを作成している最中だ。これによりデータカタログを参照することで生データの保管場所などを特定することが可能になり、AIやRPA、BIなどで生データを活用できるようになるのだという。

大手建設会社のデータレイク活用事例

 次は、研究開発の成功率向上を狙いとした大手製薬会社の取り組みだ。研究開発に莫大な投資を行う製薬業界では、その成否が業績を大きく左右する。そこで、この製薬会社では国や医師会などから製薬データを構造化/非構造化を問わず個別に収集して自社のマルチクラウド上のデータレイクに格納。前述と同様の手法でデータカタログを作成し、データレイクサービスを“ハブ”とする多様なデータ活用環境を構築中だという。

大手製薬会社のデータレイク活用事例

 最後はIoTによる生産性向上を目指した大手メーカーの活動だ。工場のラインはいくつもの工程から成り、そこで収集される膨大かつ多種多様なデータ活用が商品品質や作業プロセスの抜本的な向上策として大きな期待を集めている。

 その実践に向けたこのメーカーでは、Operational Technologyシステム(OTシステム)に格納されたセンサーデータの活用の第一歩として、OTシステムのデータモデルの確立に着手。具体的には、ELTツールなどを用いて必要なデータを収集し、クラウド上で安価かつ安全にデータを蓄積する豆蔵のデータレイクプラットフォーム「Smart Data Lake」上で、国際標準となり得るデータモデルをリファレンスモデルとしたデータカタログの作成を進めているのだ。

「Smart Data Lakeを利用することで、自社の構造化データと非構造化データを紐づけ、データを自動で分析、分類、可視化し、適切な情報を適切な人に提供できる仕組みを整備できます」(杉山氏)

豆蔵のデータレイクプラットフォーム「Smart Data Lake」

 豆蔵では、デジタルビジネスの創出支援やデータレイク構想の策定支援、データカタログ構想の策定支援、アジャイル導入支援・教育、DevOps/SRE導入支援など、データを中心としたデジタルビジネスの支援サービスを幅広く取り揃え、これまでにも数多くの企業に提供してきたという。豆蔵の存在感は今後、さらに増すことになりそうだ。


●お問い合わせ先

株式会社豆蔵
URL: https://www.mamezou.com
TEL:03-5339-2114

バックナンバー
データマネジメント2019一覧へ
関連記事

Special

-PR-

現場主体の分析を支えるデータレイク――良し悪しを見極めるポイントとは?データ分析の目的が多様化する中、その円滑な実施に向け必須の存在となっているのが「データレイク」だ。データレイクを利用すれば、その仕組みからデータ品質を高く維持でき、より大きな分析成果を期待できる。「データマネジメント2019」のセッションでは、豆蔵の技術コンサルティング事業部でシニアコンサルタントを務める杉山光治氏が、データレイクが注目される背景や具体的な機能、活用事例を解説した。

PAGE TOP