Les résultats de l'évaluation du pouf grand modèle sont révélés, qui sont 19% supérieurs à ceux de la génération précédente 'Skylark'.-IA-php.cn

Les résultats de l'évaluation du pouf grand modèle sont révélés, qui sont 19% supérieurs à ceux de la génération précédente 'Skylark'.

王林

Libérer： 2024-06-06 13:45:41

original

390 Les gens l'ont consulté

Récemment, le grand modèle de pouf a été officiellement lancé lors de la Volcano Engine Power Conference. Alors que la tendance à la réduction des prix des grands modèles est promue à des prix ultra bas, les capacités des modèles Doubao ont également attiré l'attention de l'industrie.

Dans une information produit de Volcano Engine, l'équipe Doubao Model a publié quelques résultats de tests internes de la première phase : sur l'ensemble d'évaluation publique de 11 industries principales telles que MMLU, BBH, GSM8K, HumanEval, etc., Doubao-pro- Total de 4k Le score est de 76,8 points, soit une augmentation de 19% par rapport aux 64,5 points du modèle Skylark2 de la génération précédente. C'est également mieux que les autres modèles nationaux testés au cours de la même période.

Cette évaluation s'est achevée en mai de cette année et comprenait principalement Universal Model Pro, Skylark2 et neuf grands modèles nationaux de langues. À l'exception de Skylark2, les autres modèles sont les dernières versions avancées publiées par divers fabricants et sont testés via des appels API.

Les résultats de lévaluation du pouf grand modèle sont révélés, qui sont 19% supérieurs à ceux de la génération précédente Skylark.

Photo : Résultats des tests internes de l'équipe modèle Doubao

Selon les résultats de l'évaluation, Doubao s'est amélioré de 50 % par rapport au modèle de la génération précédente sur les deux ensembles d'évaluation "HumanEval" et "MBPP" qui évaluer les capacités du code. À propos : dans l'ensemble d'évaluation des connaissances professionnelles et des instructions suivantes, Doubao a obtenu des améliorations de performances de 33 % et 24 % respectivement, et a également été le modèle national avec le score le plus élevé.

En plus de la capacité mathématique, de la capacité de compréhension du langage et des ensembles d'évaluation complets BCMMLU et CEval, il offre également de bonnes performances. Classé parmi les trois premiers en termes de score. Sur la base des résultats des tests effectués sur 11 ensembles d'évaluation publics, le Doubao Universal Model-pro a un score total de 76,8 points. Selon les résultats des tests publiés par OpenAI, GPT-4 a un score total de 80,1 points sur ces ensembles d'évaluation, ce qui lui confère encore une certaine avance sur les modèles nationaux.

Il est rapporté que le modèle de pouf vient d'être lancé le 15 mai et n'a pas encore été inclus dans les tests d'institutions tierces. On s'attend à ce qu'au cours des deux prochains mois, de nombreuses agences d'évaluation tierces divulguent progressivement les résultats de l'évaluation de ce modèle. L'assistant IA "Doubao" du même nom que le modèle a officiellement annoncé que le nombre d'utilisateurs actifs mensuels a atteint 26 millions et que les utilisateurs peuvent l'expérimenter et le tester librement.

Auparavant, l'Institut de recherche Zhiyuan a publié un rapport d'évaluation couvrant 91 modèles linguistiques à travers le monde. Dans l'évaluation subjective axée sur la capacité chinoise, Skylark2 se classe premier et sa capacité chinoise dépasse GPT-4.

Les résultats de lévaluation du pouf grand modèle sont révélés, qui sont 19% supérieurs à ceux de la génération précédente Skylark.