[データサイエンティストの思考法〜KDD Cup世界第2位の頭の中〜]

コンピュータが理解できる情報とは何か【第3回】

2016年1月21日(木)加藤 亮(金融エンジニアリング・グループ(FEG)コンサルティング本部 第1部 第1グループ 主任コンサルタント) 本橋 智光(新日鉄住金ソリューションズ(NSSOL) ソリューション企画・コンサルティングセンター エキスパート 兼 技術本部 システム研究開発センター データ分析・基盤研究部 主務研究員)

筆者らのデータ分析チームは、「KDD Cup 2015」というデータ分析の国際大会で2位に入賞しました。前回は、データ分析競技の課題を正確に理解し、データの実像に迫るために有効な分析プロセスを紹介しました。今回は、コンピュータがデータの持つ意味を理解できるように、人間が与えなければならない情報について紹介します。現時点のコンピュータは残念ながら人間のようにデータから特徴を抽出できないからです。

 人間はデータを眺めれば特徴をつかめます。例えば、前回説明したように、「KDD Cup 2015」のデータを観察することで筆者らは、「MOOC(Massive Open Online Courses、大規模オープンオンライン講義)を脱落する人は訪問日数が少ない」という特徴を見出せました。

 しかし、今のところコンピュータは、私たち人間のようには、データから特徴を抽出できません。そのため、人間が特徴に関する情報を与える必要があります。最近では人工知能の分野で登場した“Deep Learning”という技術により、データから特徴を抽出するプロセスの自動化が期待されています。ですが、人間のような認知能力の獲得には至っていません。

特徴量の抽出こそが予測精度の向上につながる

 KDD Cup 2015のデータを具体例として、実際にコンピュータに与える情報とは何かを見ていきましょう。KDD Cup 2015の課題は、「MOOCにおける受講者の脱落を予測する」でした(第1回参照)。

 本競技のデータには、履修登録(enrollment_id)単位に脱落したかどうかのフラグが付与されています。そこで図1に示すように、アクセスログ(縦に長いデータ)をenrollment_id単位で重複のない状態(ユニーク)にします。そのうえで、脱落を特徴付ける量、つまり第2回で紹介したサイトへの「訪問日数」などが横に並ぶように変換する必要があります。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
登録済みの方はこちら

IT Leaders 雑誌版、電子版をご購読の方、会員登録済みの方は下記ボタンよりログインして続きをお読みください

初めての方はこちら

IT Leaders 会員になると
会員限定公開の記事を読むことができます
IT Leadersのメルマガを購読できます

【次ページ】モデルの予測精度を示す「AUC」
  • 1
  • 2
  • 3
  • 4
バックナンバー
データサイエンティストの思考法〜KDD Cup世界第2位の頭の中〜一覧へ
関連記事

Special

-PR-

コンピュータが理解できる情報とは何か【第3回】筆者らのデータ分析チームは、「KDD Cup 2015」というデータ分析の国際大会で2位に入賞しました。前回は、データ分析競技の課題を正確に理解し、データの実像に迫るために有効な分析プロセスを紹介しました。今回は、コンピュータがデータの持つ意味を理解できるように、人間が与えなければならない情報について紹介します。現時点のコンピュータは残念ながら人間のようにデータから特徴を抽出できないからです。

PAGE TOP