Alors que les modèles linguistiques chinois à grande échelle ont démontré de solides performances en matière de compréhension et de génération du langage naturel, les ensembles de données de référence d'évaluation chinoise existants pour des tâches spécifiques de traitement du langage naturel ne sont plus suffisants pour le chinois à grande échelle. la modélisation du langage. Les modèles peuvent être évalués efficacement. Les critères d'évaluation traditionnels chinois se concentrent principalement sur la capacité du modèle à comprendre le simple bon sens (comme la nécessité d'apporter un parapluie pour sortir un jour de pluie) et la sémantique de surface (comme si le reportage sur un match de basket-ball est une actualité sportive ou technologique), tandis que ignorer l’exploitation et l’utilisation de connaissances humaines complexes. À l’heure actuelle, il y a un manque d’ensembles de données permettant d’évaluer les connaissances complexes des grands modèles chinois, en particulier lorsqu’il s’agit de connaissances professionnelles à différents niveaux et dans différents domaines du système éducatif de notre pays.
Afin de combler cette lacune, le laboratoire de traitement du langage naturel de l'université de Tianjin et le laboratoire Huawei Noah's Ark ont publié conjointement M3KE (A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models), ensemble de données de référence, qui teste la capacité des grands modèles chinois à maîtriser des connaissances multi-niveaux et multidisciplinaires sous la forme d'échantillons zéro et de quelques échantillons.
ensemble de données Introduction
M3KE collecte 20 477 questions de test standardisées réelles (dont 4 réponses de candidats), couvrant 71 tâches, dont l'école primaire, le collège et Questions d'examen d'entrée au lycée, à l'université et aux cycles supérieurs, impliquant les sciences humaines, l'histoire, la politique, le droit, l'éducation, la psychologie, les sciences, la technologie de l'ingénierie, l'art et d'autres disciplines, la répartition est illustrée à la figure 1.
Les chercheurs se sont basés sur deux critères Construire l'ensemble de données M3KE :
1, qui est conforme au système éducatif chinois et couvre plusieurs étapes d'éducation# 🎜🎜##🎜 🎜#Les chercheurs ont imité l'expérience éducative des étudiants chinois, c'est-à-dire l'école primaire, le collège, le lycée, l'université et d'autres étapes éducatives majeures, dans le but évaluer les performances du grand modèle chinois à différents niveaux d'enseignement. Étant donné que les points de connaissances qui doivent être maîtrisés à chaque niveau éducatif sont différents (par exemple, dans la matière chinoise, il existe des différences évidentes dans les connaissances ou les points de test entre l'école primaire et le collège), par conséquent, M3KE inclura les mêmes matières à différents niveaux d’enseignement. Afin d'améliorer la couverture des points de connaissance des matières dans l'ensemble de données, les chercheurs ont choisi les questions d'examen unifiées dans les examens d'entrée en Chine, y compris les questions réelles de l'école primaire au collège, l'examen d'entrée au lycée, l'examen d'entrée à l'université, l'examen d'entrée aux cycles supérieurs. et examen de la fonction publique chinoise.
2, couvrant des domaines multidisciplinaires
pour améliorer ensemble de données La couverture thématique est construite par les chercheurs sur la base de trois grandes catégories : les sciences humaines et les arts, les sciences sociales et les sciences naturelles, y compris : la littérature, la science, l'histoire, la politique, le droit, l'éducation, la psychologie, la science, la technologie de l'ingénierie, l'art et d'autres disciplines. . Pour élargir davantage la richesse de l'ensemble de données, les chercheurs ont ajouté des tâches telles que la médecine traditionnelle chinoise, la religion et les examens informatiques.
Statistiques de l'ensemble de données
Le tableau 3 montre les statistiques globales du M3KE. Le nombre de tâches dans les quatre catégories de matières ci-dessus est respectivement de 12, 21, 31 et 7, tandis que le nombre de questions dans les quatre catégories de matières est respectivement de 3 612, 6 222, 8 162 et 2 126. Le nombre maximum de questions incluses dans une tâche est de 425 et le nombre minimum est de 100. Les questions en sciences sociales et en sciences naturelles sont généralement plus longues que les questions en arts, sciences humaines et autres matières, tandis que leurs options de réponse sont plus courtes.
Introduction et exemples de M3KE dans une perspective multidisciplinaire
# 🎜🎜#Les matières humaines et artistiques comprennent des matières dans de nombreux domaines tels que le chinois, l'art et l'histoire. Ces matières se concentrent sur l'analyse et l'interprétation d'artefacts littéraires et culturels. En prenant comme exemple le chinois à l'école primaire, les questions du test sont conçues pour évaluer l'utilisation de la langue et les capacités d'appréciation littéraire des élèves âgés de 7 à 13 ans, comme la capacité à utiliser des synonymes. et des antonymes. Le sujet d'histoire couvre l'histoire de la Chine et du monde, des temps anciens aux temps modernes. En plus des sciences humaines, M3KE comprend également des matières artistiques telles que la danse, l'art, la musique, le cinéma, etc. L'art est une partie importante de la culture humaine et il est tout aussi important d'évaluer les performances des grands modèles chinois dans le domaine de l'art. Exemple de tâche artistique : Laquelle des affirmations suivantes concernant les peintures rupestres de Lascaux est incorrecte ? A. Cette fresque a été découverte en France B Il y a plus de 100 images d'animaux trouvées C L'époque de la découverte était 1940 D. noir. Principal Exemple de tâche d'histoire moderne du monde : Il a fallu plus de deux siècles entre la Révolution néerlandaise et la Révolution française, et seulement un demi-siècle après cela, le capitalisme a initialement formé un système mondial. parce que ? A. L'influence de la Révolution française s'est largement répandue B Le système de Vienne a intensifié les conflits sociaux dans divers pays C La révolution industrielle a rapidement accru le pouvoir du capitalisme D. . La domination coloniale s'est répandue dans le monde entier. Tous les continents Sciences sociales Les sciences sociales se concentrent sur l'application des sciences humaines, telles que le droit, la politique, l'éducation, la psychologie et d'autres sujets. Les cours de politique se déroulent à travers plusieurs niveaux d'enseignement, notamment le collège, le lycée, l'université et l'enseignement postuniversitaire, tandis que les autres matières sont principalement dispensées dans des cours de niveau universitaire. Les sciences sociales comprennent également des tâches d'économie et de gestion. Les questions du test pour ces tâches sont sélectionnées parmi l'examen conjoint d'économie et l'examen conjoint de gestion de l'examen d'entrée aux cycles supérieurs chinois. Les connaissances impliquent la microéconomie, la macroéconomie, la gestion et la logique. Exemple de tâche de droit pénal : A veut tuer B, alors il met du poison dans la nourriture de B. Après que B l'ait pris, A l'a regretté, a expliqué la situation rapidement et a envoyé B à l'hôpital. Lors de l'inspection, l'hôpital a constaté que le « poison » administré par A n'était pas du tout toxique et que B était sain et sauf. Le comportement de A appartient-il ? A. Ne constitue pas un crime B Tentative de crime C Crime interrompu D. Sous Recherche Pédagogique Quelle est la méthode de recherche la plus fondamentale et la plus couramment utilisée ? A. Recherche observationnelle en éducation B. Recherche par enquête éducative Sciences naturelles. Sciences naturelles Y compris l'ingénierie, les sciences, la médecine et les matières de base telles que les mathématiques, la physique, la chimie, la biologie, etc. Ces matières nécessitent souvent des compétences informatiques, analytiques et de raisonnement logique complexes. Dans le système éducatif de notre pays, une même matière implique différents types de connaissances à différents niveaux. Par exemple, les mathématiques du primaire se concentrent sur l’apprentissage des opérations arithmétiques de base, tandis que les mathématiques du secondaire couvrent des concepts mathématiques plus avancés tels que les séquences, les dérivées, la géométrie, etc. Exemple de tâche de physiologie animale : L'utilisation de procaïne pour anesthésier les fibres nerveuses affecte quelle caractéristique de l'excitation de la conduction des fibres nerveuses ? A. Intégrité physiologique B. Isolation C. Conductivité bidirectionnelle D. Paire de formulaires de répertoire Le fichier L'efficacité de la récupération a un grand impact. Quelle est la forme d'annuaire la plus avancée suivante ? A. Répertoire à un seul niveau B. Répertoire à deux niveaux Autres D. Exemple de tâche d'examen de la fonction publique chinoise : Plusieurs études antérieures ont montré que manger du chocolat augmente le risque de maladie cardiaque chez ceux qui en mangent. Et une nouvelle étude plus fiable conclut que la consommation de chocolat n’est pas associée aux taux de maladies cardiaques. On estime qu’après la publication des résultats de cette recherche, la consommation de chocolat augmentera considérablement. La déduction ci-dessus est basée sur laquelle des hypothèses suivantes ? A Bien que certaines personnes sachent que manger du chocolat augmentera le risque de maladie cardiaque, elles en mangent quand même B. Les gens ne croient jamais que manger du chocolat augmentera le risque de maladie cardiaque C. De nos jours, beaucoup de gens mangent du chocolat parce qu'ils n'ont pas entendu dire que le chocolat peut provoquer des maladies cardiaques D De nos jours, beaucoup de gens ne mangent pas de chocolat simplement parce qu'ils croient que le chocolat peut provoquer des maladies cardiaques Exemple de tâche de médecine traditionnelle chinoise. : Le ginseng a pour effet de redonner de la vitalité et de reconstituer le qi, mais quel médicament est souvent utilisé en remplacement des maladies chroniques débilitantes ? Salvia miltiorrhiza Codonopsis pilosula Astragalus Pseudostellariae Radix Pseudostellariae Introduction et exemples de M3KE d'un perspective multi-étapes éducatives
École primaire Exemple de tâches de langue chinoise pour l'école primaire : A. Le son de la nature, les nuages qui coulent et l'eau qui coule, la plume, le dragon et le serpent, fouillant dans les boîtes et les armoires B. , des idées uniques C. Le son persistant, le travail habile Une écriture merveilleuse, agitée D Huang Zhong Da Lu, vif et réaliste, des soldats d'élite et un gouvernement réduit Exemple de tâches mathématiques à l'école primaire. : Un produit a d'abord augmenté son prix de 20 %, puis l'a réduit de 20 %. Comment le prix actuel se compare-t-il à l'original ? A amélioré B. Réduit C.Inchangé D Je ne sais pas École secondaire Exemple de tâche de langue chinoise au lycée : Qu'est-ce qu'un des articles ? A. "Le plus amer et le plus heureux" est sélectionné parmi "Œuvres sélectionnées de Liang Qichao". L'auteur Liang Qichao est un penseur et un érudit de la dynastie Ming B "Zou Ji fait la satire du King of Qi for Remonstrance" est sélectionné dans "Warring States Policy", "Warring States Period" "Ce" est une compilation des stratégies et des opinions des lobbyistes pendant la période des Royaumes combattants. Elle a été compilée par Liu Xiang de la dynastie des Han de l'Est. en trente-trois articles C Les mots sont également appelés « phrases longues et courtes », et les modèles de phrases varient en longueur. Elle a prospéré sous la dynastie Song. Su Shi et Xin Qiji étaient des représentants de l'école audacieuse, tandis que Li Qingzhao était un représentant de l'école gracieuse D "L'histoire de la tour Yueyang" est en fait un article qui emprunte des objets à. exprimer ses aspirations, incarner la joie de l'auteur avec le peuple Pensées Exemple de tâches politiques au collège : La classe devrait créer un journal au tableau sur le thème "Défendre l'esprit de l'État de droit". , et Xiaolan est responsable de la rédaction du contenu de la section « Pratiquer l'égalité ». Parmi les matériaux suivants qu'elle a collectés, lesquels conviennent à la sélection ? A. Il y a des causeuses spéciales dans le bus pour que "les vieux, les faibles et les malades puissent jouer avec les femmes enceintes" B Les collégiens se rendent à la base d'éducation traditionnelle révolutionnaire pour participer aux études. activités C. Les soldats de l'Armée populaire de libération bravent le froid et la chaleur intenses pour garder la frontière de la patrie D Les étudiants profitent des vacances pour effacer les petites publicités dans les rues Lycée Exemple de tâches de langue chinoise au lycée : Shen Kuo a dit dans "Mengxi Bi Tan": "La relation entre le ciel et la terre" Les changements, le froid et la chaleur, le vent et la pluie, les inondations, les sécheresses, les sauterelles, ont tous leurs propres lois. » Quel est le sens philosophique de cette phrase ? A. Les lois sont la cause profonde des changements dans les choses objectives B Les lois sont objectives et universelles C Nous devons apprendre à regarder les problèmes d'un point de vue connecté D. Nous devons apprendre à utiliser Regardez le problème dans une perspective développementale Exemple de tâche de biologie au lycée : La capacité environnementale dépend des conditions environnementales dans lesquelles se trouve une population. Laquelle des affirmations suivantes est correcte ? La capacité environnementale des populations de pies grises dans deux endroits doit être la même La capacité environnementale des criquets migrateurs d'Asie de l'Est vivant dans une certaine prairie au cours d'années différentes peut être la même Quand la taille de la population est proche de l'environnement Lorsque la capacité est atteinte, le taux de mortalité augmentera, mais le taux de natalité restera inchangé La capacité environnementale du carassin et du poisson à tête de serpent vivant dans le lac Weishan est la même Université Exemple d'une tâche universitaire de médecine dentaire : Quel cancer buccal occupe la première place dans notre pays ? A. Cancer de la muqueuse alvéolaire B Cancer de la muqueuse buccale C Cancer des lèvres D. économie : Lequel des éléments suivants devrait être inclus dans le PIB ? A. Paiement de transfert gouvernemental B. Achetez une voiture d'occasion C. Intérêts du prêt et des obligations payés par l'entreprise D Achetez 10 000 $ gagnés sur des billets de loterie Autres Niveau informatique Exemple de. basique tâches informatiques lors de l'examen : Comme il y a beaucoup de données dans une feuille de calcul, le titre de la première ligne n'est pas toujours visible lors du défilement. Que dois-je faire pour toujours voir la ligne de titre ? ? A. Définissez "Imprimer le titre" B. Geler le volet C. Quoi La base politique de la religion est-elle adaptée à la société socialiste ? A. L'établissement du pouvoir d'État de dictature démocratique populaire B La majorité des croyants soutiennent le système socialiste et sont cohérents dans leurs intérêts fondamentaux avec le peuple du pays C. statut au pouvoir de l'établissement du Parti communiste chinois D Église indépendante et autogérée Expérience Modèle d'évaluation GLM-335M/10B/130B, un grand pré-formé modèle linguistique développé par l'Université Tsinghua, prend en charge la Chine, anglais bilingue. Les chercheurs ont choisi trois modèles de la version chinoise de GLM, avec des tailles de paramètres de 335M, 10B et 130B respectivement. BLOOM-7.1B, un grand modèle multilingue lancé par Hugging Face, a été développé par des centaines de chercheurs. Résultats d'évaluation sous différentes catégories de matières
Dans la condition de réglage de l'échantillon zéro, le modèle doit répondre directement à la question dans la condition de réglage de quelques échantillons, le modèle sera donné ; plusieurs exemples de la même tâche à l'avance, Guider le modèle pour effectuer un apprentissage en contexte. Dans M3KE, toutes les questions sont notées en utilisant la précision.
Résultats d'évaluation sous différentes étapes d'enseignement
Analyse des résultats expérimentaux
1. Dans l'évaluation sur échantillon zéro (tableaux 4 et 6), la précision de tous les modèles de langage pré-entraînés (sans réglage fin) avec des paramètres inférieurs à 10B est inférieure au résultat aléatoire (25 %). Le paramètre (Tableaux 5 et 7) contribue à améliorer les performances du modèle. Cependant, les résultats du GLM130B dans l'évaluation d'un échantillon nul sont meilleurs que les résultats de l'évaluation de quelques échantillons. La raison peut être que le GLM130B a utilisé une partie des données d'instruction dans la phase de pré-entraînement, de sorte qu'il a déjà un meilleur zéro. exemples de capacités d’apprentissage.
2, la plupart des grands modèles chinois affinés n'atteignent que le niveau de résultats aléatoires (25%), même au test de niveau primaire (Tableau 6&7). Cela montre que les connaissances des niveaux d’éducation inférieurs restent l’une des lacunes du grand modèle chinois actuel.
3. Lors de l'évaluation sur échantillon zéro, BELLE-7B-2M a obtenu les meilleurs résultats parmi les grands modèles chinois, mais présentait toujours un écart de 14,8 % avec le GPT-3,5-turbo. De plus, le nombre d'instructions de réglage fin supervisées est également un facteur important. BELLE-7B-2M affiné avec deux millions d'instructions est meilleur que BELLE-7B-0,2M affiné avec deux cent mille instructions (Tableau 4). .
4. Le paramètre à quelques échantillons n'apporte pas d'amélioration des performances dans la plupart des cas (Tableaux 5 et 7 par rapport aux Tableaux 4 et 6), en particulier pour les modèles de langage formés par un réglage fin des instructions ou un apprentissage par renforcement basé sur la rétroaction humaine. Cela montre que le réglage fin de l'instruction d'un modèle de langage pré-entraîné peut améliorer considérablement la capacité d'apprentissage zéro du modèle de langage, qui ne nécessite pas d'exemples supplémentaires pour comprendre l'intention de l'instruction ou de la question.
Les chercheurs ont proposé un nouveau benchmark, M3KE, pour évaluer la maîtrise des connaissances des grands modèles chinois dans plusieurs disciplines et différents niveaux de formation. M3KE contient 71 tâches et 20 447 questions. Les chercheurs ont constaté que tous les grands modèles chinois open source évalués étaient considérablement en retard par rapport à GPT-3.5. Les chercheurs espèrent que M3KE contribuera à découvrir les lacunes des connaissances dans les grands modèles chinois et à promouvoir le développement ultérieur des grands modèles chinois.
Toutes les tâches dans M3KE
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!