入試問題を中国の大規模モデルデータセット、20477 問、および 4 つの解答候補に移動します。-AI-php.cn

中国語の大規模言語モデルは自然言語理解と自然言語生成において優れたパフォーマンスを示しているため、特定の自然言語処理タスクに対する既存の中国語評価ベンチマークデータセットでは、大規模中国語モデルを評価するにはもはや十分ではありません。 . 効果的に評価します。伝統的な中国語の評価ベンチマークは、単純な常識 (雨の日の外出には傘を持っていく必要があるなど) と表面的な意味論 (バスケットボールの試合レポートがスポーツなのかテクノロジーのニュースなのかなど) を理解するモデルの能力に主に焦点を当てています。人間の複雑な知識の採掘と利用を無視します。現時点では、特に我が国の教育制度におけるさまざまなレベルおよびさまざまな分野の専門知識に関して、大規模な中国モデルの複雑な知識を評価するためのデータセットが不足しています。

このギャップを埋めるために、天津大学自然言語処理研究所とファーウェイ・ノアの方舟研究所は共同で、M3KE (中国語の大規模言語モデルのための大規模なマルチレベル・マルチサブジェクト知識評価ベンチマーク) をリリースしました。 ) ベンチマークデータセット。これは、中国の大規模モデルがゼロサンプルおよび少数のサンプルの形式でマルチレベルおよび複数の専門分野の知識を習得する能力をテストします。

入試問題を中国の大規模モデルデータセット、20477 問、および 4 つの解答候補に移動します。

紙のリンク: https://arxiv 。 org/abs/2305.10263
データリンク: https://github.com/tjunlp-lab/M3KE

データセットの概要

M3KE は、20,477 の実際の標準テストの問題 (4 つの回答候補を含む) を収集しました。人文科学、歴史、政治、法律、教育、心理学、科学、工学技術、芸術などの小学校、中学校、高校、大学、大学院の入試問題を含む71題を網羅しており、配布内容は図1に示すように。

入試問題を中国の大規模モデルデータセット、20477 問、および 4 つの解答候補に移動します。

研究者は、

2 つの基準に基づいて M3KE データセットを構築しました。

1、中国の教育制度に沿って、複数の教育段階をカバー

研究者らは教育経験を模倣した中国人学生の割合、つまり初等教育、中学校、高校、大学、その他の主要な教育段階を対象として、さまざまな教育段階における中国の大規模モデルのパフォーマンスを評価することを目的としています。各教育段階で習得すべき知識点が異なるため（例えば、中国語科目では小学校と中学校では知識や試験の点数に明らかな違いがあります）、M3KE には同じ内容が含まれます。さまざまな教育段階の科目。データセット内の主題の知識ポイントの網羅性を高めるために、研究者らは、小学校から中学校、高校入試、大学入試、大学院入試までの実際の問題を含む、中国の入試の統一試験問題を選択しました。そして中国の公務員試験。

#2、複数の専門分野をカバー

#データセットの対象範囲を改善するために、人文科学と芸術に基づいた研究者文学、科学、歴史、政治、法律、教育、心理学、科学、工学技術、芸術、その他の分野の 3 つの主要なカテゴリで構成されています。データセットの豊富さをさらに拡大するために、研究者らは伝統的な中国医学、宗教、コンピューターグレードの検査などのタスクを追加しました。

データセット統計

表 3 は、M3KE の全体的な統計を示しています。上記 4 つの主題カテゴリのタスク数はそれぞれ 12、21、31、および 7 であり、4 つの主題カテゴリの問題数はそれぞれ 3,612、6,222、8,162、および 2,126 です。タスクに含まれる質問の最大数は 425 で、最小数は 100 です。社会科学と自然科学の問題は一般に、芸術、人文科学、その他の科目よりも長く、解答の選択肢は短くなります。

入試問題を中国の大規模モデルデータセット、20477 問、および 4 つの解答候補に移動します。

#学際的な観点から見た M3KE の紹介と例

人文科学と芸術

人文科学および芸術分野には、中国語、芸術、歴史などの複数の分野の科目が含まれます。これらの科目は、文学および文化的遺物の分析と解釈に焦点を当てており、小学校中国語を例に取ると、テスト問題は、7 歳から 13 歳の生徒の言語使用および同義語の使用能力などの文学鑑賞能力を評価するように設計されています。と対義語。歴史科目では古代から現代までの中国史と世界史を学びます。 M3KEには人文科学に加えて、ダンス、アート、音楽、映画などの芸術科目も含まれています。芸術は人類文化の重要な部分であり、芸術分野における中国の大型モデルのパフォーマンスを評価することも同様に重要です。

美術課題の例:

ラスコー洞窟の壁画に関する次の記述のうち、間違っているものはどれですか?

#A. この壁画はフランスで発見されました

#B. 100 を超える動物の画像が見つかりました

#C. 発見時期は 1940 年です

#D. 壁画の色は主に黒です

世界近代史ミッション例:

オランダ革命からフランス革命までは 2 世紀以上かかり、その後わずか半世紀後に資本主義が最初に世界システムを形成しました。これは主に次の理由によるものですか?

#A. フランス革命の影響は広く広がりました

B. ウィーン体制は各国で社会紛争を激化させました

C. 産業革命により資本主義の力が急速に増大しました

#D. 植民地支配が世界のすべての大陸に広がりました

社会科学

# 社会科学は、法律、政治、教育、心理学などの人文科学の応用に焦点を当てています。政治科目は中学校、高校、大学、大学院など複数の教育段階を経て実施されますが、その他の科目は主に大学レベルの科目に配置されます。社会科学には経済学や経営学の問題も含まれており、この問題の出題は中国大学院入学試験の経済学合同試験と経営学合同試験から選ばれ、ミクロ経済学、マクロ経済学、経営学、論理学などの知識が含まれます。

刑法タスクの例:

A は B を殺したいので、B の食べ物に毒を入れます。 Bが服用した後、Aは後悔し、すぐに状況を説明し、Bを病院に送りました。病院の検査の結果、Aさんが投与した「毒」には全く毒性がなく、Bさんも安全であることが判明した。 Aさんの行動は何に属しますか？

#A. 犯罪にはならない

B. 犯罪未遂

C. 犯罪廃止

#D. 犯罪の完了

教育原則タスクの例:

最も基本的なもの教育研究で最も一般的に使用される研究方法は何ですか?

A. 教育観察研究

B. 教育調査研究

C. 教育測定研究

D. 教育実験研究

自然科学

自然科学には、工学、科学、医学、および数学、物理学、化学、生物学などの基礎科目が含まれます。これらの主題では、多くの場合、複雑な計算、分析、論理的推論のスキルが必要になります。我が国の教育システムでは、同じ科目でもさまざまな段階でさまざまな種類の知識が必要となります。たとえば、小学校の数学は基本的な算術演算の学習に重点を置いていますが、高校の数学は数列、導関数、幾何学などのより高度な数学の概念を扱います。動物生理学タスクの例:

プロカインを使用して神経線維を麻酔すると、神経線維伝導興奮のどの特性に影響しますか?

A. 生理学的完全性

B. 絶縁性

C. 双方向導電性

D. 比較的疲労が少ない

オペレーティングシステムタスクの例:

ディレクトリ形式はファイル検索の効率に大きな影響を与えます。以下の最も高度なディレクトリ形式は何ですか?

#A. 単一レベルのディレクトリ

#B. 2 レベルのディレクトリ

#C. 3 レベルのディレクトリディレクトリ

#D. ツリーディレクトリ

#その他

# #その他タスクの種類には、宗教、中国公務員試験、コンピュータグレード試験などが含まれます。これらのタスクには、上記の単一のレベルや分野に限定されない知識が必要です。例えば、中国の公務員試験では一般知識、人文科学、論理学などの知識が問われるため、研究者はこれらの課題を中国の大きなモデルの総合的な知識を評価するものとみなしています。

中国公務員試験の課題例:

これまでのいくつかの研究では、チョコレートを食べると心臓病の可能性が高まることが示されています。。新しい、より信頼性の高い研究は、チョコレートの摂取は心臓病の発生率と関連していないと結論付けています。この研究結果が発表された後、チョコレートの消費量は大幅に増加すると推定されています。上記の推論は、次のどの仮定に基づいていますか?

A. 心臓病の可能性が高まるとわかっていても、チョコレートを食べる人もいます。B. チョコレートを食べるなど信じたこともありませんでした。チョコレートは心臓病に苦しむ可能性を高めます

#C. 現在、多くの人がチョコレートを食べていますが、それはチョコレートが心臓病を引き起こす可能性があるということを聞いたことがないからです

D. 最近では、チョコレートが心臓病を誘発する可能性があると考えているという理由だけで、多くの人がチョコレートを食べません。

伝統的な中国医学の課題の例:

高麗人参には活力を補充し、気を補充する効果がありますが、慢性衰弱性疾患の代替品としてよく使用される薬は何ですか?

# サルビア

Codonopsis pilosula

レンゲ

太子神

複数の教育段階の観点から見た M3KE の紹介と例

研究者らは、中国の教育制度に従ってデータセットを以下の段階に分割しました。小学校、中学校、高校、大学、大学院の受験。同様に、研究者は、コンピュータグレード試験や中国公務員試験など、教育制度の外にある試験科目も選択します。

##小学校

小学校の中国語課題の例:

次の言葉文章として完全に正しいのはどれですか? #A. 自然の音、雲の流れ、水の流れ、ペン、龍、蛇、箱やキャビネットをあさる音

B. 山と流れる水、歌と踊り、最後の仕上げ、ユニークなアイデア

C. 音の余韻、技術の巧みさ、ペンに花がいっぱい、落ち着きのない

D. 黄忠達陸は生き生きとしていて、生き生きとしており、エリート部隊と縮小された政府です。

#小学校の数学の課題の例:

製品の価格が最初に 20% 引き上げられ、その後 20% 引き下げられます。現在の価格は元の価格とどう比較されますか?

A. 改善された

#B. 減少

#C. 変化なし

#D. わからない

中学校

中学校の中国語課題の例:

次のうちどれですか。次の記述は正しいでしょうか?

A.「梁啓超作品選」より「最も痛く、最も幸福」を抜粋著者の梁啓超は明代の思想家、学者である

B. " 「鄒基、斉王を風刺しアドバイスを受け入れる」は『戦国政策』から抜粋。『戦国政策』は、戦国時代のロビイストの戦略や意見をまとめたもの。戦国時代。東漢時代の劉翔によって 33 章にまとめられました

#C. 単語は「長文」「短文」とも呼ばれ、文型はさまざまです。長さ。宋の時代に隆盛を極め、蘇軾や辛其記は大胆奔放な派の代表、李青照は優雅な派の代表であり、民衆とともに楽しむという作者の思想を体現している

中学校における政治課題の例:

「法の支配の精神を擁護する」というテーマで授業を行うべきです。 Blackboard 新聞の「実践の平等」セクションの内容を執筆する責任があります。彼女が収集した次の資料のうち、選択に適しているものはどれですか?

A. バスには「高齢者、衰弱した女性、病気の女性、妊娠中の女性」のための特別な二人席があります

B. 中学生革命伝統教育基地に行って学習活動に参加する

C. 人民解放軍の兵士たちは厳しい寒さと暑さに耐えて祖国の国境を守りました

D. 生徒たちは休日を利用して街頭の小さな広告を撤去しました

高等学校

高等教育の例学校の中国語の課題:

沈括は『孟西碧譚』の中で次のように述べています。すべての人には法がある。」この文の哲学的な意味は何ですか?

#A. 法則は客観的な物事の変化の根本原因である

#B. 法則は客観的かつ普遍的である

C. 接続の観点から問題を見ることを学ぶ

D. 開発の観点から問題を見ることを学ぶ

高等学校生物学的課題の例:

環境能力は集団の環境条件に依存します。次の記述のうち正しいものはどれですか?

2 か所のカササギ個体群の環境能力は同じでなければなりません

ある草原に生息するトノサマバッタ異なる年環境容量は同じかもしれない

人口が環境容量に近づくと、死亡率は増加し、出生率は変わらない

生命威山湖のフナとライギョの環境保持能力は同じである

大学

口腔病学大学のミッション例:

我が国で第 1 位にランクされている口腔がんはどれですか? #A. 歯槽粘膜がん

#B. 頬粘膜がん

C. 口唇がん

D. 舌がん

大学の総合経済学課題の例:

次のとおり項目 GDP に含めるべき項目はどれですか?

#A. 政府振込による支払い

B. 中古車の購入

C. 事業者が支払うローンと社債の利息

D. 10,000宝くじの購入で獲得した人民元

その他

## コンピュータ級試験のためのコンピュータ基本タスクの例:

ワークシートには大量のデータがあるため、スクロールするときに最初の行のタイトルが常に表示されるわけではありません。タイトル行を常に表示するにはどうすればよいですか?最も速い方法は何ですか?

A. 「印刷タイトル」を設定します

B. ペインを固定します

C. 固定します最初の行

D。最初の列を固定します

宗教的使命の例:

宗教社会主義社会に適した政治的基盤は何でしょうか?

#A. 人民民主的独裁国家権力の確立

#B. 信者の大多数は社会主義制度を支持し、基本的思想を共有している国の人々の利益それは

# cで全会一致です。中国共産党のリーダーシップと支配的地位の確立

#D. 独立して自分の教会を運営する

実験

#評価モデル

#GLM-335M/10B/130B、清華大学が開発事前トレーニング済みの大規模言語モデル、中国語と英語のバイリンガルをサポート。研究者らは、パラメータサイズがそれぞれ 335M、10B、130B の中国版 GLM の 3 つのモデルを選択しました。

BLOOM-7.1B は、Hugging Face によって発売された多言語対応の大規模モデルで、数百人の研究者によって開発されました。
ChatGLM-6B は清華大学で開発された言語モデルで、指導データを使用して微調整され、人間のフィードバックに基づく強化学習によってさらにトレーニングされます。
MOSS-16B-SFT は復旦大学によって開発された言語モデルであり、MOSS-moon-003-SFT の命令を微調整したバージョンが実験に使用されました。
BELLE-7B-0.2M は、BLOOMZ-7.1B-mt によって開発された言語モデルに基づいており、200,000 の命令で微調整されています。
BELLE-7B-2M は、BLOOMZ-7.1B-mt によって開発された言語モデルに基づいており、200 万の命令で微調整されています。
GPT-3.5-turbo、OpenAI によって開発された言語モデル。人工的に構築された高品質な指導データを用いてヒューマンフィードバックによる強化学習訓練を行います。
#ゼロショット/フューショット評価

ゼロサンプル設定でのモデル要件直接質問する場合、サンプル数が少ない設定の条件下では、モデルがコンテキスト内学習を実行するようにガイドするために、同じタスクのいくつかの例が事前にモデルに与えられます。 M3KE では、すべての質問は精度を使用して採点されます。

#さまざまな主題カテゴリでの評価結果

入試問題を中国の大規模モデルデータセット、20477 問、および 4 つの解答候補に移動します。

#さまざまな教育段階での評価結果

入試問題を中国の大規模モデルデータセット、20477 問、および 4 つの解答候補に移動します。

##結果の分析

1. ゼロサンプル評価 (表 4&6) では、パラメーターが 10B 未満のすべての事前トレーニング済み言語モデル (微調整なし) の精度は、ランダムな結果 (25%) よりも低くなります。サンプルが少ない場合 (表 5 と 7)、モデルのパフォーマンスの向上に役立ちます。ただし、GLM130B のゼロサンプル評価の結果は、少数サンプル評価の結果よりも優れています。これは、GLM130B が事前トレーニング段階で命令データの一部を使用しているため、すでにゼロサンプル評価の方が優れているためと考えられます。学習能力。

2、微調整された中国の大型モデルのほとんどは、小学校レベルのテストであっても、ランダムな結果のレベル (25%) にしか達しません (表 6&7)。これは、低教育レベルでの知識が依然として現在の大規模な中国モデルの欠点の 1 つであることを示しています。

#3. ゼロサンプル評価では、BELLE-7B-2M が中国大型モデルの中で最高の結果を達成しましたが、それでも GPT-3.5-turbo とは 14.8% の差がありました。。さらに、教師あり微調整命令の数も重要な要素であり、200 万命令で微調整された BELLE-7B-2M は、20 万命令で微調整された BELLE-7B-0.2M よりも優れています (表 4) 。

4、少数のサンプルの設定では、ほとんどの場合、特に人間のフィードバックに基づいた命令の微調整や強化学習の後では、パフォーマンスの向上はもたらされません (表 5&7 と表 4&6)。言語モデル。これは、事前トレーニングされた言語モデルの命令を微調整すると、命令や質問の意図を理解するために追加のサンプルを必要とせず、言語モデルのゼロショット学習能力を大幅に向上できることを示しています。

結論

研究者らは、複数の分野およびさまざまな教育段階における中国の大規模モデルの知識習得度を評価するための新しいベンチマーク M3KE を提案しました。 M3KE には 71 のタスクと 20,447 の質問が含まれています。研究者らは、評価されたすべての大規模なオープンソースの中国モデルが GPT-3.5 より大幅に遅れていることを発見しました。研究者らは、M3KEが中国の大型モデルの知識の抜け穴を発見し、中国の大型モデルのさらなる開発を促進するのに役立つことを期待している。

#M3KE のすべてのタスク

入試問題を中国の大規模モデルデータセット、20477 問、および 4 つの解答候補に移動します。