世界最大級のYARNクラスタを構築するMicrosoft、自動運転技術に乗り出すNVIDIA─データビジネスのメインプレーヤが挑む次のゴール

2017/06/12-06/16

2017年6月20日(火)五味明子（ITジャーナリスト／IT Leaders編集委員）

リスト

今回は2017年6月13～15日（米国時間）の3日間にわたって米サンノゼで開催されたHortonworks主催の年次カンファレンス「DataWorks Summit San Jose 2017」の初日キーノートの内容から、Hortonworksの戦略的パートナーである2社─MicrosoftとNVIDIA─が明らかにしたデータビジネスにおけるそれぞれの新たな取り組みについて紹介したい。

Microsoft：Cosmosクラスタを「YARNベースのアーキテクチャ」に全面的に移行

　Microsoftは現在、社内向けに大規模な並列分散処理環境として「Cosmos」というストレージおよび計算処理サービスを提供している。かつてHadoopの対抗技術として開発されていた「Dryad」を実装したシステムで、例えばBingやSkypeといったMicrosoftが提供するサービスから得られたデータセットの分析などに利用されている。Cosmosクラスタは世界各地に分散しており、稼働中のノード数はおよそ2万～5万ほど、実行されるジョブの数は1日あたり10万を超える。Cosmosクラスタ上のジョブ（クエリー）はSQLに似た「Scope」言語で記述される。

マイクロソフトのラオ氏

　現在、Microsoftはこの巨大なCosmosクラスタを「YARNベースのアーキテクチャに全面的に移行中」であるとMicrosoft クラウド部門担当パートナーグループマネージャスリラム・ラオ（Sriram Rao）氏がキーノートで明らかにしている。ここで注目したいのは「“Scope on YARN（Cosmosのワークロード）”は他のApacheフレームワークと同様に（処理基盤ごとにクラスタを分けるのではなく）1つのクラスタ内で複数のエンジンによるジョブの実行を可能にする」（ラオ氏）という点だ。これは他のHadoopエコシステムと同じアプローチを採ることを意味しており、同時にMicrosoftがApache Hadoop YARNによりコミットしていく姿勢をあらわしている。

　「数年前まで行っていた手法、つまりフレームワークごとにクラスタを分けたり、クラスタ間でデータをコピーするといったアプローチはサステナブルではなく、現在の開発者のニーズにも適さない。すでにYARNという広く実績のある、イノベーティブなリソースマネジメント技術があるのに、Microsoftがこれを使わない手はない。社内の多くの開発者もこれに同意した。また、我々のYARN開発の成果はコミュニティにすべてフィードバックする」（ラオ氏）。

Microsoftが構築しようとしている巨大YARNクラスタのアーキテクチャ。YARNの思想にあわせ、ひとつのクラスタ内で複数の異なるフレームワークのジョブを実行させることを重要視している
拡大画像表示

　「Apache Hadoop YARNはMicrosoftのビッグデータインフラストラクチャの中心」と最後に締めくくったラオ氏。Micorosoftは今後、10万ノードまでスケールする巨大YARNクラスタの構築も予定しているという。Microsoftのコーポレートカルチャーが数年前とは大きく変化していることをあらためて実感させられる。

NVIDIA：ヘルスケアと自動運転における技術開発に力を注ぐ

　今回のData WorksSummitではトレンドを反映してか、マシンラーニング/ディープラーニングといったAI関連の話題がセッションでも多かった。6月13日に発表されたIBMとHortonworksの提携も両社がデータサイエンスおよびAIビジネスを強化するための施策だということができる。そして現在、AI、特にディープラーニングの分野で急激に勢いを増しているのがNVIDIAだ。5月にはディープラーニングに特化した5120コアのGPU「NVIDIA Tesla V100」を発表するなど、いまやAI分野のリーディングカンパニーとして市場全体を牽引する存在となっている。

　「NVIDIAはつい最近までゲーマーのための会社だと思われていた。もっとも、そのイメージは間違いではなくて、確かに我々はゲームに求められるニーズに応えるために技術を発展させてきた。だがゲームの性能を向上させるための並列処理技術とアルゴリズムが、実はディープラーニングをイネーブルにする存在だったことに気づいたんだ」──キーノートに登壇したNVIDIAのバイスプレジデント兼ジェネラルマネージャのジム・マクヒュー（Jim McHugh）氏はNVIDIAのGPUがディープラーニングで飛躍した最初のきっかけをこう語る。

データプラットフォーマーのHortonworksとディープラーニングのトップランナーであるNVIDIAは以前から協業関係にあり、HDPクラスタ×NVIDIA GPUによるニューラルネットワークの親和性も高い
拡大画像表示

　「大きな転換点は2012年のこと。アレックス・クリジェフスキー（Alex Krizhesvsky）がコードを書かずに、NVIDIAのGPUを使って構築したディープラーニングシステムで画像を大量に読み込ませてトレーニングし、ソフトウェアベースの画像認識システムよりも高い認識精度を叩き出した。これでGPUのディープラーニングへの適性に多くの人々が気づいた」（マクヒュー氏）。

　すでにゲームからディープラーニングへと主戦場を移した感のあるNVIDIAだが、現在、同社はヘルスケアと自動運転における技術開発に特に力を入れているという。とりわけ、自動運転に関してはドイツの自動車メーカーであるAudiと共同で研究を進めており、「2020年中には実用レベルの自動運転車を世の中に送り出す」（マクヒュー氏）と明言している。自動車をマシンとして扱い、膨大なデータを読み込ませて学習させることで「クルマがドライバーの状態をチェックし、運転技術を学ぶことがすでに可能になっている」（マクヒュー氏）という。

「データこそがディープラーニングにとっての血液」と強調するマクヒュー氏(左)。現在はドローンにおけるGPUの活用にもフォーカスしているという。右はHortonworksのラジ・ベルマCOO
拡大画像表示

　ディープラーニングにおいてはコードを書く技術よりも「データこそが血液であり、大量のデータを用意することがもっとも重要」というマクヒュー氏。データプラットフォームベンダーのHortonworksと組むことで、大量のデータを格納するHadoopベースの基盤を用意し、劇的な進化を続けるNVIDIA GPUのパワーでもって、ディープラーニングによる自動運転実現を目指す。

去年までは「Hadoop Summit」だったHortonworks主催の「DataWorks Summit」。例年通り6月にサンノゼのコンベンションセンターで3日間に渡り開催された
拡大画像表示

リスト

バックナンバー

五味明子のLock on！& Rock on!一覧へ

トピックス

[Sponsored]

世界最大級のYARNクラスタを構築するMicrosoft、自動運転技術に乗り出すNVIDIA─データビジネスのメインプレーヤが挑む次のゴール

Microsoft：Cosmosクラスタを「YARNベースのアーキテクチャ」に全面的に移行

NVIDIA：ヘルスケアと自動運転における技術開発に力を注ぐ

おすすめのホワイトペーパー

トピックス