Selon l'actualité du 9 août, l'équipe d'Alibaba Tongyi a open source un modèle mathématique de nouvelle génération Qwen2-Math, qui comprend un modèle de base et un modèle de réglage fin des instructions avec trois paramètres de 1,5B, 7B et 72B. Qwen2-Math est développé sur la base du grand modèle de langage open source Tongyi Qianwen Qwen2. Le modèle phare Qwen2-Math-72B-Instruct obtient des scores supérieurs à GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro et Llama. L'ensemble d'évaluation faisant autorité MATH.-3.1-405B, etc., traite une variété de problèmes mathématiques tels que l'algèbre, la géométrie, le comptage et les probabilités, la théorie des nombres, etc. avec une précision de 84 %, devenant ainsi le modèle spécifique aux mathématiques le plus avancé.
Remarque : Dans l'évaluation de référence MATH, Qwen2-Math-72B-Instruct, le modèle phare du modèle mathématique Tongyi Qianwen, a atteint une précision de 84 %, surpassant GPT-4, Claude-3.5, Gemini-1.5-Pro et des modèles open source et fermés tels que Llama-3.1.Le modèle de base Qwen2-Math est initialisé à l'aide du grand modèle de langage Qwen2 et pré-entraîné sur un corpus spécifique aux mathématiques soigneusement conçu. Les données de formation comprennent des textes mathématiques en ligne à grande échelle et de haute qualité, des livres, des codes et des questions d'examen. , et Qwen2 Données mathématiques de pré-entraînement pour la synthèse de modèles. Tous les ensembles de données de pré-formation et de réglage fin ont été décontaminés.
Par la suite, l'équipe R&D a formé la version de réglage fin des instructions du modèle : d'abord, un modèle de récompense spécifique aux mathématiques a été formé sur la base de Qwen2-Math-72B, puis le signal de récompense dense a été combiné avec un signal binaire indiquant si ; le modèle a répondu correctement à la question, en utilisant les étiquettes Learn, puis a construit des données de réglage fin supervisé (SFT) par échantillonnage de rejet, enfin, a utilisé la méthode GRPO pour optimiser le modèle basé sur le modèle SFT ;
Il est rapporté que les modèles de la série Qwen2-Math prennent actuellement principalement en charge l'anglais. L'équipe Tongyi lancera bientôt une version bilingue en chinois et en anglais, et des versions multilingues sont également en cours de développement.
L'équipe Tongyi a évalué les performances du modèle de réglage fin de l'enseignement dans plusieurs ensembles d'évaluation de référence en mathématiques chinoises et anglaises. En plus des références d'évaluation courantes telles que GSM8K et MATH, elle a également introduit des tests de concours d'examens plus difficiles, tels que. Tests de niveau olympique. Évaluation de référence OlympiadBench, évaluation de référence en mathématiques universitaires CollegeMath, examen d'entrée au collège (GaoKao), questions du concours American Mathematics Invitational Competition (AIME) 2024, questions du concours American Mathematics Contest (AMC) 2023, les évaluations chinoises incluent l'ensemble d'évaluation CMATH, Questions mathématiques pour l'examen d'entrée à l'université de Chine 2024 et l'examen d'entrée au lycée. Au final, Qwen2-Math-72B-Instruct s'est extrêmement bien comporté et a obtenu des résultats dépassant de loin ceux des autres modèles mathématiques open source dans les dix premières évaluations.
Remarque : L'équipe R&D a évalué le modèle dans des conditions gourmandes et RM@8. Le tableau répertorie trois résultats de score pour chaque modèle Qwen2-Math-72B-Instruct, qui sont les premiers scores de réponse (sans numéro d'indice). score de la réponse qui apparaît le plus souvent parmi les 8 réponses, et le score de la réponse sélectionnée par le modèle de récompense parmi les 8 réponses.« Les grands modèles peuvent-ils résoudre des problèmes de mathématiques ? » n'est pas seulement un sujet brûlant sur les plateformes sociales, mais aussi un sujet de recherche qui préoccupe beaucoup l'industrie. La gestion de problèmes mathématiques avancés nécessite des modèles dotés de capacités de raisonnement logique complexes en plusieurs étapes. L'équipe de Tongyi a déclaré dans un blog technique qu'elle espère « contribuer à la communauté scientifique dans la résolution de problèmes mathématiques avancés » grâce à l'open source, et qu'elle continuera à améliorer les capacités mathématiques du modèle à l'avenir.
Pièce jointe : Exemple de résolution de problèmes Qwen2-Math
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!