[調査・レポート]

6つのLLMでITパスポート試験の正答率を比較、ELYZAが72.3%でGPT-4を上回る─GMOメディア調査

一般的な日本語理解能力ではGPT-4とGPT-3.5 Turboが他を圧倒

2024年3月13日(水)IT Leaders編集部

GMOメディアは2024年3月12日、IT分野の言語処理能力を測る目的で大規模言語モデル(LLM)の性能比較を行い、その検証結果を発表した。「ITパスポート試験」の正答率を6種類のLLMで比較し、最も高かったのはELYZA(72.3%)だった。一般的な日本語理解能力を測るベンチマーク「JGLUE」ではGPT-4とGPT-3.5 Turboが他を圧倒した。

 GMOインターネットグループのデジタルメディア事業会社であるGMOメディアは、「日本語言語モデルの実践的評価」研究の過程で、IT分野の言語処理能力を測る目的で大規模言語モデル(LLM)の性能比較を行った。

 ITに関する基本的な知識や応用能力を証明する国家試験「ITパスポート試験」において、各LLMに正解を導き出す能力がどのくらいあるのかを検証すべく、以下の6種類のLLMに同試験の過去問題を解かせている。

  • GPT-3.5(gpt-3.5-turbo-1106 / OpenAI)
  • GPT-4(gpt-4-11-6-preview / OpenAI)
  • Japanese StableLM Alpha(Japanese Stable LM Instruct Alpha 7B v2 / Stability AI)
  • Swallow(Swallow-7B-instruct-hf / 東京工業大学情報理工学院・国立研究開発法人産業技術総合研究所 研究チーム)
  • Nekomata(nekomata-7b-instruction / rinna)
  • ELYZA-japanese-Llama-2-7b (ELYZA-japanese-Llama-2-7b-instruct / ELYZA)

 入力する情報が特定分野に特化していることがLLMの解答精度にどのような影響を与えるかを検証するため、一般的な日本語理解能力を測るベンチマーク「JGLUE」のスコアとITパスポート試験の正答率を各LLMが獲得した点数割合として評価対象にしている。

 加えて、解答を導くのに役立つヒントをプロンプトに追加し、ヒントを提供した場合に正答率がどの程度向上するかを検証した。ヒントを含まないプロンプトで問題を解かせたケースと、ヒントを含むプロンプトで解かせたケースの正答率を比較している。

 検証の結果、ITパスポート試験(ヒントなし)では、「ELYZA-japanese-Llama-2-7b-instruct」が正答率72.3%でトップ。「gpt-4-11-6-preview」「gpt-3.5-turbo-1106」が70.53%、69.9%で続いた。JGLUEベンチマークでは、GPT-4とGPT-3.5 Turboが他を圧倒し、ELYZAは最下位だった(表1)。

表1:LLMが獲得した点数の割合(%)(出典:GMOメディア)
LLMモデル名 JGLUE ITパスポート試験
(ヒントなし)
ITパスポート試験
(ヒントあり)
gpt-3.5-turbo-1106 89.311 69.9 93.832
gpt-4-11-6-preview 95.42 70.53 82.99
Japanese Stable LM Instruct Alpha 7B v2 67.53 24.1 67.53
Swallow-7B-instruct-hf 46.91 31.1 62.5
nekomata-7b-instruction 81.68 58.8 86.16
ELYZA-japanese-Llama-2-7b-instruct 38.42 72.3 64.33

 一方、「Japanese Stable LM Instruct Alpha 7B v2」と「nekomata-7b-instruction」は、一般的な日本語理解能力を測るJGLUEでELYZAを大きく上回ったにもかかわらず、ITパスポート試験ではふるわなかった。「ただし、IT分野を苦手としたLLMでも、プロンプトにヒントを与えることで、ほとんどのLLMで解答精度が向上することが分かった」(GMOメディア)としている。

 「IT分野での正答を導き出す力はLLM間で差異がある。一方で、専門分野に特化したチューニングを施していない汎用的なLLMでも、一定の精度でIT分野での活用が期待できる」と同社は分析。そのうえで、ITパスポート試験の学習においては、誤りがある可能性を踏まえて、「分からない単語や概念について質問する」「練習問題を作成する」ことが一定程度有効だとしている。

 GMOメディアは、今回の結果をまとめた研究論文を「2024年人工知能学会全国大会」(2024年5月28日~31日、主催:一般社団法人人工知能学会)に提出している。

関連キーワード

大規模言語モデル / 生成AI / ITパスポート試験 / ELYZA / GPT / 認定資格 / GMO / rinna / OpenAI / R&D / メディア

関連記事

トピックス

[Sponsored]

6つのLLMでITパスポート試験の正答率を比較、ELYZAが72.3%でGPT-4を上回る─GMOメディア調査GMOメディアは2024年3月12日、IT分野の言語処理能力を測る目的で大規模言語モデル(LLM)の性能比較を行い、その検証結果を発表した。「ITパスポート試験」の正答率を6種類のLLMで比較し、最も高かったのはELYZA(72.3%)だった。一般的な日本語理解能力を測るベンチマーク「JGLUE」ではGPT-4とGPT-3.5 Turboが他を圧倒した。

PAGE TOP