6つのLLMでITパスポート試験の正答率を比較、ELYZAが72.3％でGPT-4を上回る─GMOメディア調査

一般的な日本語理解能力ではGPT-4とGPT-3.5 Turboが他を圧倒

2024年3月13日(水)IT Leaders編集部

リスト

GMOメディアは2024年3月12日、IT分野の言語処理能力を測る目的で大規模言語モデル（LLM）の性能比較を行い、その検証結果を発表した。「ITパスポート試験」の正答率を6種類のLLMで比較し、最も高かったのはELYZA（72.3%）だった。一般的な日本語理解能力を測るベンチマーク「JGLUE」ではGPT-4とGPT-3.5 Turboが他を圧倒した。

　GMOインターネットグループのデジタルメディア事業会社であるGMOメディアは、「日本語言語モデルの実践的評価」研究の過程で、IT分野の言語処理能力を測る目的で大規模言語モデル（LLM）の性能比較を行った。

　ITに関する基本的な知識や応用能力を証明する国家試験「ITパスポート試験」において、各LLMに正解を導き出す能力がどのくらいあるのかを検証すべく、以下の6種類のLLMに同試験の過去問題を解かせている。

GPT-3.5（gpt-3.5-turbo-1106 / OpenAI)
GPT-4（gpt-4-11-6-preview / OpenAI)
Japanese StableLM Alpha（Japanese Stable LM Instruct Alpha 7B v2 / Stability AI)
Swallow（Swallow-7B-instruct-hf / 東京工業大学情報理工学院・国立研究開発法人産業技術総合研究所研究チーム)
Nekomata（nekomata-7b-instruction / rinna)
ELYZA-japanese-Llama-2-7b （ELYZA-japanese-Llama-2-7b-instruct / ELYZA）

　入力する情報が特定分野に特化していることがLLMの解答精度にどのような影響を与えるかを検証するため、一般的な日本語理解能力を測るベンチマーク「JGLUE」のスコアとITパスポート試験の正答率を各LLMが獲得した点数割合として評価対象にしている。

　加えて、解答を導くのに役立つヒントをプロンプトに追加し、ヒントを提供した場合に正答率がどの程度向上するかを検証した。ヒントを含まないプロンプトで問題を解かせたケースと、ヒントを含むプロンプトで解かせたケースの正答率を比較している。

　検証の結果、ITパスポート試験（ヒントなし）では、「ELYZA-japanese-Llama-2-7b-instruct」が正答率72.3%でトップ。「gpt-4-11-6-preview」「gpt-3.5-turbo-1106」が70.53％、69.9％で続いた。JGLUEベンチマークでは、GPT-4とGPT-3.5 Turboが他を圧倒し、ELYZAは最下位だった（表1）。

表1：LLMが獲得した点数の割合（%）（出典：GMOメディア）
LLMモデル名	JGLUE	ITパスポート試験（ヒントなし）	ITパスポート試験（ヒントあり）
gpt-3.5-turbo-1106	89.311	69.9	93.832
gpt-4-11-6-preview	95.42	70.53	82.99
Japanese Stable LM Instruct Alpha 7B v2	67.53	24.1	67.53
Swallow-7B-instruct-hf	46.91	31.1	62.5
nekomata-7b-instruction	81.68	58.8	86.16
ELYZA-japanese-Llama-2-7b-instruct	38.42	72.3	64.33

　一方、「Japanese Stable LM Instruct Alpha 7B v2」と「nekomata-7b-instruction」は、一般的な日本語理解能力を測るJGLUEでELYZAを大きく上回ったにもかかわらず、ITパスポート試験ではふるわなかった。「ただし、IT分野を苦手としたLLMでも、プロンプトにヒントを与えることで、ほとんどのLLMで解答精度が向上することが分かった」（GMOメディア）としている。

　「IT分野での正答を導き出す力はLLM間で差異がある。一方で、専門分野に特化したチューニングを施していない汎用的なLLMでも、一定の精度でIT分野での活用が期待できる」と同社は分析。そのうえで、ITパスポート試験の学習においては、誤りがある可能性を踏まえて、「分からない単語や概念について質問する」「練習問題を作成する」ことが一定程度有効だとしている。

　GMOメディアは、今回の結果をまとめた研究論文を「2024年人工知能学会全国大会」（2024年5月28日～31日、主催：一般社団法人人工知能学会）に提出している。

リスト

トピックス

[Sponsored]

6つのLLMでITパスポート試験の正答率を比較、ELYZAが72.3％でGPT-4を上回る─GMOメディア調査

おすすめのホワイトペーパー

トピックス