Es werden die Bewertungsergebnisse des großen Sitzsackmodells enthüllt, die 19 % höher sind als die der vorherigen Generation „Skylark'.-KI-php.cn

Es werden die Bewertungsergebnisse des großen Sitzsackmodells enthüllt, die 19 % höher sind als die der vorherigen Generation „Skylark'.

王林

Freigeben： 2024-06-06 13:45:41

Original

388 Leute haben es durchsucht

Kürzlich wurde das große Sitzsackmodell offiziell auf der Volcano Engine Power Conference vorgestellt. Während der Preissenkungstrend bei großen Modellen zu extrem niedrigen Preisen vorangetrieben wird, haben die Modellfähigkeiten von Doubao auch die Aufmerksamkeit der Branche auf sich gezogen.

In einer Produktinformation von Volcano Engine veröffentlichte das Doubao-Modellteam die erste Phase einiger interner Testergebnisse: auf den öffentlichen Bewertungssätzen von 11 Mainstream-Branchen wie MMLU, BBH, GSM8K, HumanEval usw., Doubao-pro- Die Gesamtpunktzahl von 4k beträgt 76,8 Punkte, was einer Steigerung von 19 % im Vergleich zu den 64,5 Punkten des Vorgängermodells Skylark2 entspricht. Dies ist auch besser als bei anderen inländischen Modellen, die im gleichen Zeitraum getestet wurden.

Diese Evaluierung wurde im Mai dieses Jahres abgeschlossen und umfasste hauptsächlich Universal Model Pro, Skylark2 und neun inländische große Sprachmodelle. Mit Ausnahme von Skylark2 sind andere Modelle die neuesten erweiterten Versionen verschiedener Hersteller und werden über API-Aufrufe getestet.

Es werden die Bewertungsergebnisse des großen Sitzsackmodells enthüllt, die 19 % höher sind als die der vorherigen Generation „Skylark.

Bild: Interne Testergebnisse des Doubao-Modellteams

Den Bewertungsergebnissen zufolge hat sich Doubao im Vergleich zum Modell der vorherigen Generation auf den beiden Bewertungssätzen „HumanEval“ und „MBPP“ um 50 % verbessert Bewerten Sie die Codefähigkeiten. Im Bewertungssatz für professionelles Wissen und Anleitung erzielte Doubao eine Leistungsverbesserung von 33 % bzw. 24 % und war auch das inländische Modell mit der höchsten Punktzahl.

Zusätzlich zu den mathematischen Fähigkeiten, dem Sprachverständnis und den umfassenden Bewertungssätzen BCMMLU und CEval verfügt es auch über eine gute Leistung. In der Punktewertung unter den ersten Drei. Basierend auf den Testergebnissen von 11 öffentlichen Bewertungssets hat das Doubao Universal Model-pro eine Gesamtpunktzahl von 76,8 Punkten. Laut den von OpenAI veröffentlichten Testergebnissen erreicht GPT-4 bei diesen Bewertungssätzen eine Gesamtpunktzahl von 80,1 Punkten, was immer noch einen gewissen Vorsprung gegenüber inländischen Modellen darstellt.

Es wird berichtet, dass das Sitzsackmodell erst am 15. Mai auf den Markt kam und noch nicht in die Tests Dritter einbezogen wurde. Es wird erwartet, dass in den nächsten ein bis zwei Monaten viele externe Bewertungsagenturen nach und nach die Bewertungsergebnisse dieses Modells offenlegen werden. Der KI-Assistent „Doubao“ mit dem gleichen Namen wie das Modell hat offiziell bekannt gegeben, dass die Zahl der monatlich aktiven Benutzer 26 Millionen erreicht hat und Benutzer es frei erleben und testen können.

Zuvor veröffentlichte das Zhiyuan Research Institute einen Bewertungsbericht über 91 Sprachmodelle auf der ganzen Welt. In der subjektiven Bewertung, die sich auf die Chinesischkenntnisse konzentriert, belegt Skylark2 den ersten Platz und seine Chinesischfähigkeiten übertreffen GPT-4.

Es werden die Bewertungsergebnisse des großen Sitzsackmodells enthüllt, die 19 % höher sind als die der vorherigen Generation „Skylark.

Bild: Ergebnisse der Sprachmodellbewertung des Zhiyuan Research Institute (das Modell ist die Version vor 4Monat20Tag)

Das obige ist der detaillierte Inhalt vonEs werden die Bewertungsergebnisse des großen Sitzsackmodells enthüllt, die 19 % höher sind als die der vorherigen Generation „Skylark'.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!