Déplacez les questions de l'examen d'entrée dans le grand ensemble de données du modèle chinois, avec 20 477 questions et 4 réponses de candidats.-IA-php.cn

Alors que les modèles linguistiques chinois à grande échelle ont démontré de solides performances en matière de compréhension et de génération du langage naturel, les ensembles de données de référence d'évaluation chinoise existants pour des tâches spécifiques de traitement du langage naturel ne sont plus suffisants pour le chinois à grande échelle. la modélisation du langage. Les modèles peuvent être évalués efficacement. Les critères d'évaluation traditionnels chinois se concentrent principalement sur la capacité du modèle à comprendre le simple bon sens (comme la nécessité d'apporter un parapluie pour sortir un jour de pluie) et la sémantique de surface (comme si le reportage sur un match de basket-ball est une actualité sportive ou technologique), tandis que ignorer l’exploitation et l’utilisation de connaissances humaines complexes. À l’heure actuelle, il y a un manque d’ensembles de données permettant d’évaluer les connaissances complexes des grands modèles chinois, en particulier lorsqu’il s’agit de connaissances professionnelles à différents niveaux et dans différents domaines du système éducatif de notre pays.

Afin de combler cette lacune, le laboratoire de traitement du langage naturel de l'université de Tianjin et le laboratoire Huawei Noah's Ark ont publié conjointement M3KE (A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models), ensemble de données de référence, qui teste la capacité des grands modèles chinois à maîtriser des connaissances multi-niveaux et multidisciplinaires sous la forme d'échantillons zéro et de quelques échantillons.

Déplacez les questions de lexamen dentrée dans le grand ensemble de données du modèle chinois, avec 20 477 questions et 4 réponses de candidats.

# 🎜 🎜#Lien papier : https://arxiv.org/abs/2305.10263
Lien données : https:/ /github.com/tjunlp-lab/M3KE

M3KE Ensemble de données

ensemble de données Introduction

M3KE collecte 20 477 questions de test standardisées réelles (dont 4 réponses de candidats), couvrant 71 tâches, dont l'école primaire, le collège et Questions d'examen d'entrée au lycée, à l'université et aux cycles supérieurs, impliquant les sciences humaines, l'histoire, la politique, le droit, l'éducation, la psychologie, les sciences, la technologie de l'ingénierie, l'art et d'autres disciplines, la répartition est illustrée à la figure 1.

Déplacez les questions de lexamen dentrée dans le grand ensemble de données du modèle chinois, avec 20 477 questions et 4 réponses de candidats.

Les chercheurs se sont basés sur deux critères Construire l'ensemble de données M3KE :

1, qui est conforme au système éducatif chinois et couvre plusieurs étapes d'éducation# 🎜🎜##🎜 🎜#Les chercheurs ont imité l'expérience éducative des étudiants chinois, c'est-à-dire l'école primaire, le collège, le lycée, l'université et d'autres étapes éducatives majeures, dans le but évaluer les performances du grand modèle chinois à différents niveaux d'enseignement. Étant donné que les points de connaissances qui doivent être maîtrisés à chaque niveau éducatif sont différents (par exemple, dans la matière chinoise, il existe des différences évidentes dans les connaissances ou les points de test entre l'école primaire et le collège), par conséquent, M3KE inclura les mêmes matières à différents niveaux d’enseignement. Afin d'améliorer la couverture des points de connaissance des matières dans l'ensemble de données, les chercheurs ont choisi les questions d'examen unifiées dans les examens d'entrée en Chine, y compris les questions réelles de l'école primaire au collège, l'examen d'entrée au lycée, l'examen d'entrée à l'université, l'examen d'entrée aux cycles supérieurs. et examen de la fonction publique chinoise.

2, couvrant des domaines multidisciplinaires

pour améliorer ensemble de données La couverture thématique est construite par les chercheurs sur la base de trois grandes catégories : les sciences humaines et les arts, les sciences sociales et les sciences naturelles, y compris : la littérature, la science, l'histoire, la politique, le droit, l'éducation, la psychologie, la science, la technologie de l'ingénierie, l'art et d'autres disciplines. . Pour élargir davantage la richesse de l'ensemble de données, les chercheurs ont ajouté des tâches telles que la médecine traditionnelle chinoise, la religion et les examens informatiques.

Statistiques de l'ensemble de données

Le tableau 3 montre les statistiques globales du M3KE. Le nombre de tâches dans les quatre catégories de matières ci-dessus est respectivement de 12, 21, 31 et 7, tandis que le nombre de questions dans les quatre catégories de matières est respectivement de 3 612, 6 222, 8 162 et 2 126. Le nombre maximum de questions incluses dans une tâche est de 425 et le nombre minimum est de 100. Les questions en sciences sociales et en sciences naturelles sont généralement plus longues que les questions en arts, sciences humaines et autres matières, tandis que leurs options de réponse sont plus courtes.

Déplacez les questions de lexamen dentrée dans le grand ensemble de données du modèle chinois, avec 20 477 questions et 4 réponses de candidats. Introduction et exemples de M3KE dans une perspective multidisciplinaire

# 🎜🎜#

humanités et arts

Les matières humaines et artistiques comprennent des matières dans de nombreux domaines tels que le chinois, l'art et l'histoire. Ces matières se concentrent sur l'analyse et l'interprétation d'artefacts littéraires et culturels. En prenant comme exemple le chinois à l'école primaire, les questions du test sont conçues pour évaluer l'utilisation de la langue et les capacités d'appréciation littéraire des élèves âgés de 7 à 13 ans, comme la capacité à utiliser des synonymes. et des antonymes. Le sujet d'histoire couvre l'histoire de la Chine et du monde, des temps anciens aux temps modernes. En plus des sciences humaines, M3KE comprend également des matières artistiques telles que la danse, l'art, la musique, le cinéma, etc. L'art est une partie importante de la culture humaine et il est tout aussi important d'évaluer les performances des grands modèles chinois dans le domaine de l'art.

Exemple de tâche artistique :

Laquelle des affirmations suivantes concernant les peintures rupestres de Lascaux est incorrecte ?

A. Cette fresque a été découverte en France

B Il y a plus de 100 images d'animaux trouvées

C L'époque de la découverte était 1940

D. noir. Principal

Exemple de tâche d'histoire moderne du monde :

Il a fallu plus de deux siècles entre la Révolution néerlandaise et la Révolution française, et seulement un demi-siècle après cela, le capitalisme a initialement formé un système mondial. parce que ?

A. L'influence de la Révolution française s'est largement répandue

B Le système de Vienne a intensifié les conflits sociaux dans divers pays

C La révolution industrielle a rapidement accru le pouvoir du capitalisme

D. . La domination coloniale s'est répandue dans le monde entier. Tous les continents

Sciences sociales

Les sciences sociales se concentrent sur l'application des sciences humaines, telles que le droit, la politique, l'éducation, la psychologie et d'autres sujets. Les cours de politique se déroulent à travers plusieurs niveaux d'enseignement, notamment le collège, le lycée, l'université et l'enseignement postuniversitaire, tandis que les autres matières sont principalement dispensées dans des cours de niveau universitaire. Les sciences sociales comprennent également des tâches d'économie et de gestion. Les questions du test pour ces tâches sont sélectionnées parmi l'examen conjoint d'économie et l'examen conjoint de gestion de l'examen d'entrée aux cycles supérieurs chinois. Les connaissances impliquent la microéconomie, la macroéconomie, la gestion et la logique.

Exemple de tâche de droit pénal :

A veut tuer B, alors il met du poison dans la nourriture de B. Après que B l'ait pris, A l'a regretté, a expliqué la situation rapidement et a envoyé B à l'hôpital. Lors de l'inspection, l'hôpital a constaté que le « poison » administré par A n'était pas du tout toxique et que B était sain et sauf. Le comportement de A appartient-il ?

A. Ne constitue pas un crime

B Tentative de crime

C Crime interrompu

Sous Recherche Pédagogique Quelle est la méthode de recherche la plus fondamentale et la plus couramment utilisée ?

A. Recherche observationnelle en éducation

B. Recherche par enquête éducative

Sciences naturelles.

Sciences naturelles Y compris l'ingénierie, les sciences, la médecine et les matières de base telles que les mathématiques, la physique, la chimie, la biologie, etc. Ces matières nécessitent souvent des compétences informatiques, analytiques et de raisonnement logique complexes. Dans le système éducatif de notre pays, une même matière implique différents types de connaissances à différents niveaux. Par exemple, les mathématiques du primaire se concentrent sur l’apprentissage des opérations arithmétiques de base, tandis que les mathématiques du secondaire couvrent des concepts mathématiques plus avancés tels que les séquences, les dérivées, la géométrie, etc.

Exemple de tâche de physiologie animale :

L'utilisation de procaïne pour anesthésier les fibres nerveuses affecte quelle caractéristique de l'excitation de la conduction des fibres nerveuses ?

A. Intégrité physiologique

B. Isolation

C. Conductivité bidirectionnelle

D. Paire de formulaires de répertoire Le fichier L'efficacité de la récupération a un grand impact. Quelle est la forme d'annuaire la plus avancée suivante ?

A. Répertoire à un seul niveau

B. Répertoire à deux niveaux

Autres

Autre types Les tâches incluent la religion, l'examen de la fonction publique chinoise, l'examen de niveau informatique, etc. Ces tâches nécessitent des connaissances qui ne se limitent pas au seul niveau ou discipline décrit ci-dessus. Par exemple, l’examen de la fonction publique chinoise implique des connaissances telles que les connaissances générales, les sciences humaines et la logique, de sorte que les chercheurs considèrent ces tâches comme une évaluation de la connaissance globale du grand modèle chinois.

Exemple de tâche d'examen de la fonction publique chinoise :

Plusieurs études antérieures ont montré que manger du chocolat augmente le risque de maladie cardiaque chez ceux qui en mangent. Et une nouvelle étude plus fiable conclut que la consommation de chocolat n’est pas associée aux taux de maladies cardiaques. On estime qu’après la publication des résultats de cette recherche, la consommation de chocolat augmentera considérablement. La déduction ci-dessus est basée sur laquelle des hypothèses suivantes ?

A Bien que certaines personnes sachent que manger du chocolat augmentera le risque de maladie cardiaque, elles en mangent quand même

B. Les gens ne croient jamais que manger du chocolat augmentera le risque de maladie cardiaque

C. De nos jours, beaucoup de gens mangent du chocolat parce qu'ils n'ont pas entendu dire que le chocolat peut provoquer des maladies cardiaques

D De nos jours, beaucoup de gens ne mangent pas de chocolat simplement parce qu'ils croient que le chocolat peut provoquer des maladies cardiaques

Exemple de tâche de médecine traditionnelle chinoise. :

Le ginseng a pour effet de redonner de la vitalité et de reconstituer le qi, mais quel médicament est souvent utilisé en remplacement des maladies chroniques débilitantes ?

Salvia miltiorrhiza

Codonopsis pilosula

Astragalus

Pseudostellariae Radix Pseudostellariae

Introduction et exemples de M3KE d'un perspective multi-étapes éducatives

Les chercheurs ont mené l'ensemble de données selon le système éducatif chinois a organisé des examens d'entrée à l'école primaire, au collège, au lycée, à l'université et aux études supérieures. De même, les chercheurs choisissent également certaines matières d’examen en dehors du système éducatif, comme les examens d’informatique et les examens de la fonction publique chinoise.

École primaire

Exemple de tâches de langue chinoise pour l'école primaire :

Lequel des mots suivants est écrit complètement correctement ?

A. Le son de la nature, les nuages qui coulent et l'eau qui coule, la plume, le dragon et le serpent, fouillant dans les boîtes et les armoires

B. , des idées uniques

C. Le son persistant, le travail habile Une écriture merveilleuse, agitée

D Huang Zhong Da Lu, vif et réaliste, des soldats d'élite et un gouvernement réduit

Exemple de tâches mathématiques à l'école primaire. :

Un produit a d'abord augmenté son prix de 20 %, puis l'a réduit de 20 %. Comment le prix actuel se compare-t-il à l'original ?

A amélioré

B. Réduit

C.Inchangé

D Je ne sais pas

École secondaire

Exemple de tâche de langue chinoise au lycée :

Qu'est-ce qu'un des articles ?

A. "Le plus amer et le plus heureux" est sélectionné parmi "Œuvres sélectionnées de Liang Qichao". L'auteur Liang Qichao est un penseur et un érudit de la dynastie Ming

B "Zou Ji fait la satire du King of Qi for Remonstrance" est sélectionné dans "Warring States Policy", "Warring States Period" "Ce" est une compilation des stratégies et des opinions des lobbyistes pendant la période des Royaumes combattants. Elle a été compilée par Liu Xiang de la dynastie des Han de l'Est. en trente-trois articles

C Les mots sont également appelés « phrases longues et courtes », et les modèles de phrases varient en longueur. Elle a prospéré sous la dynastie Song. Su Shi et Xin Qiji étaient des représentants de l'école audacieuse, tandis que Li Qingzhao était un représentant de l'école gracieuse

D "L'histoire de la tour Yueyang" est en fait un article qui emprunte des objets à. exprimer ses aspirations, incarner la joie de l'auteur avec le peuple Pensées

Exemple de tâches politiques au collège :

La classe devrait créer un journal au tableau sur le thème "Défendre l'esprit de l'État de droit". , et Xiaolan est responsable de la rédaction du contenu de la section « Pratiquer l'égalité ». Parmi les matériaux suivants qu'elle a collectés, lesquels conviennent à la sélection ?

A. Il y a des causeuses spéciales dans le bus pour que "les vieux, les faibles et les malades puissent jouer avec les femmes enceintes"

B Les collégiens se rendent à la base d'éducation traditionnelle révolutionnaire pour participer aux études. activités

C. Les soldats de l'Armée populaire de libération bravent le froid et la chaleur intenses pour garder la frontière de la patrie

D Les étudiants profitent des vacances pour effacer les petites publicités dans les rues

Lycée

Exemple de tâches de langue chinoise au lycée :

Shen Kuo a dit dans "Mengxi Bi Tan": "La relation entre le ciel et la terre" Les changements, le froid et la chaleur, le vent et la pluie, les inondations, les sécheresses, les sauterelles, ont tous leurs propres lois. » Quel est le sens philosophique de cette phrase ?

A. Les lois sont la cause profonde des changements dans les choses objectives

B Les lois sont objectives et universelles

C Nous devons apprendre à regarder les problèmes d'un point de vue connecté

D. Nous devons apprendre à utiliser Regardez le problème dans une perspective développementale

Exemple de tâche de biologie au lycée :

La capacité environnementale dépend des conditions environnementales dans lesquelles se trouve une population. Laquelle des affirmations suivantes est correcte ?

La capacité environnementale des populations de pies grises dans deux endroits doit être la même

La capacité environnementale des criquets migrateurs d'Asie de l'Est vivant dans une certaine prairie au cours d'années différentes peut être la même

Quand la taille de la population est proche de l'environnement Lorsque la capacité est atteinte, le taux de mortalité augmentera, mais le taux de natalité restera inchangé

La capacité environnementale du carassin et du poisson à tête de serpent vivant dans le lac Weishan est la même

Université

Exemple d'une tâche universitaire de médecine dentaire :

Quel cancer buccal occupe la première place dans notre pays ?

A. Cancer de la muqueuse alvéolaire

B Cancer de la muqueuse buccale

C Cancer des lèvres

D. économie :

Lequel des éléments suivants devrait être inclus dans le PIB ?

A. Paiement de transfert gouvernemental

B. Achetez une voiture d'occasion

C. Intérêts du prêt et des obligations payés par l'entreprise

D Achetez 10 000 $ gagnés sur des billets de loterie

Autres

Niveau informatique Exemple de. basique tâches informatiques lors de l'examen :

Comme il y a beaucoup de données dans une feuille de calcul, le titre de la première ligne n'est pas toujours visible lors du défilement. Que dois-je faire pour toujours voir la ligne de titre ? ?

A. Définissez "Imprimer le titre"

B. Geler le volet

Quoi La base politique de la religion est-elle adaptée à la société socialiste ?

A. L'établissement du pouvoir d'État de dictature démocratique populaire

B La majorité des croyants soutiennent le système socialiste et sont cohérents dans leurs intérêts fondamentaux avec le peuple du pays

C. statut au pouvoir de l'établissement du Parti communiste chinois

D Église indépendante et autogérée

Expérience

Modèle d'évaluation

GLM-335M/10B/130B, un grand pré-formé modèle linguistique développé par l'Université Tsinghua, prend en charge la Chine, anglais bilingue. Les chercheurs ont choisi trois modèles de la version chinoise de GLM, avec des tailles de paramètres de 335M, 10B et 130B respectivement. BLOOM-7.1B, un grand modèle multilingue lancé par Hugging Face, a été développé par des centaines de chercheurs.

ChatGLM-6B, un modèle de langage développé par l'Université Tsinghua, est affiné à l'aide de données d'instructions et formé davantage grâce à un apprentissage par renforcement basé sur les commentaires humains.
MOSS-16B-SFT, un modèle de langage développé par l'Université de Fudan, la version pédagogique affinée de MOSS-moon-003-SFT a été utilisée dans l'expérience.
BELLE-7B-0.2M, un modèle de langage développé sur la base de BLOOMZ-7.1B-mt et affiné avec 200 000 instructions.
BELLE-7B-2M, un modèle de langage développé sur la base de BLOOMZ-7.1B-mt et affiné avec 2 millions d'instructions.
GPT-3.5-turbo, un modèle de langage développé par OpenAI. La formation d'apprentissage par renforcement par feedback humain est réalisée à l'aide de données d'instructions de haute qualité construites artificiellement.

Dans la condition de réglage de l'échantillon zéro, le modèle doit répondre directement à la question dans la condition de réglage de quelques échantillons, le modèle sera donné ; plusieurs exemples de la même tâche à l'avance, Guider le modèle pour effectuer un apprentissage en contexte. Dans M3KE, toutes les questions sont notées en utilisant la précision.

Résultats d'évaluation sous différentes catégories de matières

Déplacez les questions de lexamen dentrée dans le grand ensemble de données du modèle chinois, avec 20 477 questions et 4 réponses de candidats.

Résultats d'évaluation sous différentes étapes d'enseignement

Déplacez les questions de lexamen dentrée dans le grand ensemble de données du modèle chinois, avec 20 477 questions et 4 réponses de candidats.

Analyse des résultats expérimentaux

Déplacez les questions de lexamen dentrée dans le grand ensemble de données du modèle chinois, avec 20 477 questions et 4 réponses de candidats.

1. Dans l'évaluation sur échantillon zéro (tableaux 4 et 6), la précision de tous les modèles de langage pré-entraînés (sans réglage fin) avec des paramètres inférieurs à 10B est inférieure au résultat aléatoire (25 %). Le paramètre (Tableaux 5 et 7) contribue à améliorer les performances du modèle. Cependant, les résultats du GLM130B dans l'évaluation d'un échantillon nul sont meilleurs que les résultats de l'évaluation de quelques échantillons. La raison peut être que le GLM130B a utilisé une partie des données d'instruction dans la phase de pré-entraînement, de sorte qu'il a déjà un meilleur zéro. exemples de capacités d’apprentissage.

2, la plupart des grands modèles chinois affinés n'atteignent que le niveau de résultats aléatoires (25%), même au test de niveau primaire (Tableau 6&7). Cela montre que les connaissances des niveaux d’éducation inférieurs restent l’une des lacunes du grand modèle chinois actuel.

3. Lors de l'évaluation sur échantillon zéro, BELLE-7B-2M a obtenu les meilleurs résultats parmi les grands modèles chinois, mais présentait toujours un écart de 14,8 % avec le GPT-3,5-turbo. De plus, le nombre d'instructions de réglage fin supervisées est également un facteur important. BELLE-7B-2M affiné avec deux millions d'instructions est meilleur que BELLE-7B-0,2M affiné avec deux cent mille instructions (Tableau 4). .

4. Le paramètre à quelques échantillons n'apporte pas d'amélioration des performances dans la plupart des cas (Tableaux 5 et 7 par rapport aux Tableaux 4 et 6), en particulier pour les modèles de langage formés par un réglage fin des instructions ou un apprentissage par renforcement basé sur la rétroaction humaine. Cela montre que le réglage fin de l'instruction d'un modèle de langage pré-entraîné peut améliorer considérablement la capacité d'apprentissage zéro du modèle de langage, qui ne nécessite pas d'exemples supplémentaires pour comprendre l'intention de l'instruction ou de la question.

Conclusion

Les chercheurs ont proposé un nouveau benchmark, M3KE, pour évaluer la maîtrise des connaissances des grands modèles chinois dans plusieurs disciplines et différents niveaux de formation. M3KE contient 71 tâches et 20 447 questions. Les chercheurs ont constaté que tous les grands modèles chinois open source évalués étaient considérablement en retard par rapport à GPT-3.5. Les chercheurs espèrent que M3KE contribuera à découvrir les lacunes des connaissances dans les grands modèles chinois et à promouvoir le développement ultérieur des grands modèles chinois.

Toutes les tâches dans M3KE

Déplacez les questions de lexamen dentrée dans le grand ensemble de données du modèle chinois, avec 20 477 questions et 4 réponses de candidats.