東工大など、スパコン「富岳」でLLMを学習、130億パラメータの「Fugaku-LLM」を公開

GPU以外でLLMを学習させるスキルセットを獲得

2024年5月10日(金)日川佳三（IT Leaders編集部）

リスト

東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、Kotoba Technologiesの7組織は2024年5月10日、スーパーコンピュータ「富岳」で大規模言語モデル（LLM）を学習する研究成果として、130億パラメータのLLM「Fugaku-LLM」を公開した。富岳の計算資源1万3824ノードを約1カ月間占有して学習させて構築したもので、日本語の能力が高いとしている。

　東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、Kotoba Technologiesの7組織は、2024年3月末にかけて、スーパーコンピュータ「富岳」（写真1）で大規模言語モデル（LLM）を効率的に学習する研究を実施した。

　2024年5月10日に、研究成果となるソフトウェアの実装をGitHubおよびHugging Faceで公開した（関連記事：「富岳」を活用して、大規模言語モデルの効率的な開発手法を研究─東工大、東北大、富士通、理研）。

写真1：スーパーコンピュータ「富岳」の外観（出典：富士通、理化学研究所）
拡大画像表示

　成果物の1つは、130億パラメータのLLM「Fugaku-LLM」である。富岳の計算資源1万3824ノード（富岳の全15万8976ノードの10％弱）を約1カ月間占有し、約4000億トークンを学習させた。選択したパラメータ数とトークン数は、利用可能な富岳のノード数と学習期間の制約の下、可能なかぎり高性能なLLMの構築を目的に決定した。

　学習データの約60%を日本語コンテンツが占め、日本語能力が高いとしている。日本語のベンチマーク「Japanese MT-Bench」の平均スコアは5.5で、人文社会系のタスクは9.18と、米OpenAIのGPT-4よりも高い結果となった（画面1）。