データマネジメント データマネジメント記事一覧へ

[データマネジメント2018]

「データパイプライン」でデータ活用の反復的プロセスを実現する!

2018年4月2日(月)

データの数や量、生成頻度が高まったことで、これまで行ってきたデータ活用の施策が通用しにくくなってきた。そんななか「データパイプライン」と「反復的プロセス」に注目することを提案するのが日立製作所だ。3月7日に行われた「データマネジメント2018 ~データが拓く無限の可能性~」の中で、多種多様なビッグデータを統合し分析する重要性を説いた。

データ活用の反復的プロセスを実現する「データパイプライン」とは

日立製作所 営業統括本部 サービス営業推進本部 Pentahoプロジェクト室 門脇豪氏

 「データ分析でいくつのデータソースをブレンドしているか?」。米国の調査機関Forester Researchが行った調査によると、この質問に対する最も多い回答は「50以上」で約52%を占めた。また「100以上」は34%、1000以上は12%にも達した。データ活用の重要性が増すなか、企業にはさまざまなデータソースが溢れかえっている状況を如実に示している。

 日立製作所 営業統括本部 サービス営業推進本部 Pentahoプロジェクト室の門脇豪氏はまず、こうしたデータの数や量、生成頻度が高まることによって、本来データ活用で実施されるべき「反復的プロセス」が難しくなってきたと課題を解説した。

 反復的プロセスを阻害する要因は、大きく3つある(図1)。

図1:反復的プロセスを阻害するいくつかの課題
拡大画像表示

 1つは、データのサイロ化だ。複数のシステムが散在し、所在不明なデータソースも存在する。システム間ではデータの意味定義や記述形式、更新タイミングが異なる。これらのデータを人力で統合しようとすると、不完全な統合データウェアハウスとなってしまう。

 2つめは、ビッグデータに代表されるデータリッチ化への対応だ。非構造化データの管理には新しい技術が必要になる。ただ既存データとの統合アーキテクチャやデータのブレンディング方法を描くことは難しく、サイロ化したデータを残したまま取り組みを進めるわけにもいかない。

 3つめは、多様化する現場の可視化・分析ニーズへの対応だ。売上データを分析するだけでなく、顧客属性や購買行動と関連づけて分析するなど新しいニーズは次々とでてくる。それらに素早く対応し、適切な可視化・分析を提供していく必要がある。

 「こうした課題に対応するうえで有効なアプローチの1つになるのがデータパイプライン(図2)です。データパイプラインは、データのエンジニアリング、データの準備、データの分析という一連のワークフローを企業横断的に支援し、データ活用の反復的プロセスを実施しやすくします」(門脇氏)。

図2:反復的プロセスを強力にサポートするデータパイプライン
拡大画像表示

 データ活用のフェーズには、データ取得、加工、ブレンディング、デリバリー、ディスカバリ&分析、分析&可視化などがある。また、これらをパイプラインのなかで一貫して管理していくためには、運用管理、セキュリティ、ライフサイクル管理、データ来歴トラッキング、ダイナミックデータパイプライン、監視、ジョブ自動化などを考慮することが重要だ。

 こうしたデータパイプラインを実現するソリューションの1つが日立製作所の展開するオープンソースベースのビッグデータ統合&アナリティクス製品「Pentahoソフトウェア」だ。

多種多様なビッグデータを統合し、分析を行う「Pentahoソフトウェア」

 Pentahoソフトウェアは2005年に米Pentaho Corporationによって開発されたソフトウェアだ。2010年にはApache Hadoop向けデータ統合・BIスイート製品を市場に投入。2015年の日立データシステムズ(HDS)による買収を経て、2017年9月にHDSと統合、現在はHitachi Vantara(日立ヴァンタラ社)としてPentahoソフトウェアの事業展開を行っている。

 「Pentahoソフトウェアは、多種多様なビッグデータを統合し、分析を行うためのデータ統合・分析基盤です。データを抽出・準備・ブレンドする『データ統合基盤』、統合したデータを分析・可視化する『データ分析基盤』という2つの基盤を使って、データ統合から分析までの一貫した環境を提供することができます」(門脇氏)。

 門脇氏によると、データパイプラインを整備・構築するためには、「柔軟性」「拡張性」「可用性」の3点がポイントになる(図3)。

図3:データパイプラインの整備・構築のための機能要件
拡大画像表示

 具体的な機能要件としては、統合プラットフォームとして多様なデータタイプと接続できること、エンドユーザーがデータの変換・統合処理を直観的な操作かつコーディングレスで実行できること、ビッグデータとのブレンド、原資データから可視化・分析に至る管理の一貫性、アクセス管理・セキュリティ、クラウド対応などとなる。Pentahoソフトウェアを利用することで、こうしたポイントを押さえながら、具体的な機能要件を実行することが可能になる。

 提供開始から10年超の実績を持つソフトウェアであるため、グローバル規模で多数のユーザーがいる。国内企業での利用実績としては、日立グループに財務・人事のシェアードサービスを提供する日立マネジメントパートナーがある。

 同社では、源泉所得税納税額総括表作成など、毎月の帳票作成業務における業務担当者の作業負荷が課題だった。給与計算トータル表、手当計算トータル表、賞与計算トータル表など9帳票(約100ファイル/月)を、明細照会データやGLの残高データなどと照らし合わせながら、手作業で実施していた。そこで、Pentahoソフトウェアを使って、帳票生成にかかる作業の自動化に取り組んだ。この結果、毎月の作業工数を、150時間から30時間に短縮し、作業工数の80%以上を削減したという。

 最後に門脇氏は「より有用な分析・洞察は、恒常的に繰り返される複数データソースのデータブレンディングにより獲得されます。進化と反復プロセスが重要です」とデータ活用の勘所を示し、講演を締めくくった。


●Pentahoソフトウェアに関するお問い合わせ先

TEL:0120-55-0504
(受付時間:平日9時~12時/13時~17時)
URL:http://www.hitachi.co.jp/products/it/bigdata/platform/pentaho/

 

バックナンバー
データマネジメント2018一覧へ
関連記事

Special

-PR-

「データパイプライン」でデータ活用の反復的プロセスを実現する!データの数や量、生成頻度が高まったことで、これまで行ってきたデータ活用の施策が通用しにくくなってきた。そんななか「データパイプライン」と「反復的プロセス」に注目することを提案するのが日立製作所だ。3月7日に行われた「データマネジメント2018 ~データが拓く無限の可能性~」の中で、多種多様なビッグデータを統合し分析する重要性を説いた。

PAGE TOP