[データサイエンティストの思考法〜KDD Cup世界第2位の頭の中〜]

データから、そのデータを生み出した実像をつかむ【第2回】

2015年12月17日(木)加藤 亮(金融エンジニアリング・グループ(FEG)コンサルティング本部 第1部 第1グループ 主任コンサルタント) 西川 大亮(新日鉄住金ソリューションズ(NSSOL)技術本部システム研究開発センター データ分析・基盤研究部 データ分析グループリーダー(統括研究員))

「筆者らのデータ分析チームは、「KDD Cup 2015」というデータ分析の国際大会で2位に入賞しました。前回は、KDD Cup 2015を例に、データ分析競技というデータサイエンティストが挑む世界の概要と、その意義を紹介しました。今回からは、KDD Cup 2015のステップに沿って、競技中にデータサイエンティストたちが何を考え行動しているのかを解説していきます。今回は、競技の課題を正確に理解し、データの実像に迫るために有効な3つの基本的な分析プロセスを紹介します。

 データサイエンティストには、高度なアルゴリズムを自在に操るイメージがあります。しかし彼らは、データの背後にある人間の行動や心理の実像を描き出すスペシャリストでもあるのです。よいモデルを作るためには、データから実世界の動きを解釈・想像するスキルが不可欠です。特にビジネスを対象にした分析では、データの深層に埋もれている事実の発見が施策立案の基礎となることも少なくありません。

 では、データサイエンティストはどうやって、データから人間の行動や心理の実像を描き出しているのでしょうか。KDD Cup 2015での筆者らのチームの行動を例に、説明してみましょう。

正解付きの「学習データ」からモデルを導き出す

 KDD CUP 2015における課題は、「中国のオンライン無料講座(MOOC:Massive Open Online Courses)サイト『XuetangX』におけるユーザー(受講者)の脱落を予測する」ことでした(第1回参照)。無料サービスであり人気があるものの、脱落率が高いという課題を抱えています。脱落する可能性が高いユーザーを予測できれば、事前に効果的な施策を打てるという期待があります。

 XuetangXはオンラインの無料講座として、「データサイエンス」や「統計学」といった多様なコースを用意しています。各コースは、いくつかの章から成っており、各章には動画と問題があります。ユーザーは動画を視聴し、問題に回答しながら学習を進めるのです。ユーザー同士が集うためのフォーラムや、講義を補うためのwikiが用意され、問題が難しい場合には他のユーザーから回答のヒントを得ることもできます。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
登録済みの方はこちら

IT Leaders 雑誌版、電子版をご購読の方、会員登録済みの方は下記ボタンよりログインして続きをお読みください

初めての方はこちら

IT Leaders 会員になると
会員限定公開の記事を読むことができます
IT Leadersのメルマガを購読できます

【次ページ】与えられた課題や条件だけでは不明なことが多い
  • 1
  • 2
  • 3
  • 4
バックナンバー
データサイエンティストの思考法〜KDD Cup世界第2位の頭の中〜一覧へ
関連記事

データから、そのデータを生み出した実像をつかむ【第2回】「筆者らのデータ分析チームは、「KDD Cup 2015」というデータ分析の国際大会で2位に入賞しました。前回は、KDD Cup 2015を例に、データ分析競技というデータサイエンティストが挑む世界の概要と、その意義を紹介しました。今回からは、KDD Cup 2015のステップに沿って、競技中にデータサイエンティストたちが何を考え行動しているのかを解説していきます。今回は、競技の課題を正確に理解し、データの実像に迫るために有効な3つの基本的な分析プロセスを紹介します。

PAGE TOP