Die Bewertungsplattform FlagEval veröffentlichte die neueste Liste der Mitte Juni veröffentlichten „objektiven Bewertung“. GPT-4 belegte den ersten Platz unter den großen Closed-Source-Modellen und Doubao-Pro (großes Sitzsackmodell) belegte den zweiten Platz und erzielte ebenfalls die Bewertung höchstes inländisches großes Modell; gefolgt von ERNIE 4.0, Baichuan3, Moonshot-v1 usw. In der offenen Antwortbewertung belegte Doubao-Pro ebenfalls den zweiten Platz und erzielte mehr Punkte als GPT-4o und GPT-4. Es entstehen ständig neue Technologien, und nur Plattformen, die weiterhin auf neue Technologien achten und sich an sie anpassen können, können in diesem hart umkämpften Markt unbesiegbar bleiben. Anzahl der Wörter: 114
FlagEval großes Modell Bewertungsplattform Es wurde gemeinsam vom Zhiyuan Research Institute und mehreren Universitätsteams entwickelt. Es basiert auf der Entwicklungsleiter menschlicher kognitiver Fähigkeiten und richtet sich nach dem kognitiven Niveau, das große Modelle erreichen können. FlagEval hat eine große Anzahl ursprünglicher, nicht öffentlicher Bewertungssätze erstellt, um die Qualität und Fairness der Bewertungen sicherzustellen. Seit seiner Einführung im Juni 2023 hat FlagEval mehr als 1.000 Bewertungen großer Modelle auf der ganzen Welt durchgeführt.Doubao-Pro ist ein großes Sprachmodell, das unabhängig von Bytedance entwickelt wurde und am 15. Mai offiziell veröffentlicht wurde. In dieser Ausgabe der FlagEval-Rangliste für große Modelle feierte Doubaos großes Modell sein Debüt in der öffentlichen Bewertung und belegte den zweiten Platz. Dieses Modell verfügt über leistungsstarke Funktionen zur Sequenzgenerierung und zum Verständnis natürlicher Sprache und kann in großem Umfang in der Dialoggenerierung, Textzusammenfassung, maschinellen Übersetzung und anderen Bereichen eingesetzt werden.
Bei der objektiven und subjektiven Bewertung zeigt sich, dass die mathematischen Fähigkeiten, die Wissensanwendung, das Lösen von Aufgaben und andere Fähigkeiten des Sitzsackmodells sowohl bei der objektiven als auch bei der subjektiven Bewertung eine hervorragende Leistung erbringen. Unter ihnen belegten die Ergebnisse der Wissensanwendung und der mathematischen Fähigkeiten den ersten Platz in der objektiven Bewertung und die ersten drei in der subjektiven Bewertung, und die Ergebnisse zur Aufgabenlösung rangierten in der objektiven Bewertung unter den ersten drei. Mathematische Fähigkeiten sind eine wichtige Dimension bei der Beurteilung, ob ein großes Modell „intelligent“ ist. Zuvor führte das Natural Language Processing Laboratory der Fudan-Universität eine Bewertung von 13 gängigen Großmodellprodukten für die Mathematikfragen der College-Aufnahmeprüfung 2024 durch. Doubaos Antworten auf die neue Standard-II-Prüfung für die Hochschulaufnahmeprüfung erzielten die höchste Punktzahl mit einer Genauigkeitsrate Mit 74,66 % bei objektiven Fragen sind die Ergebnisse besser als bei GPT-4o und vielen inländischen Großmodellprodukten. Bildquelle: Fudan . Sein gleichnamiger KI-Konversationsassistent „Doubao“ steht bei den Downloads unter den AIGC-Anwendungen im Apple APP Store und in den wichtigsten Android-Anwendungsmärkten an erster Stelle. Derzeit öffnet Doubao Big Model seine Dienste über ByteDance für den Unternehmensmarkt und hat Kooperationen mit Smart-Terminal-Herstellern wie OPPO, Honor, Xiaomi, Samsung und Asus aufgebaut.
Das obige ist der detaillierte Inhalt vonZhiyuan aktualisiert die Rangliste der großen Modelle: Das große Doubao-Modell belegt in China den ersten Platz bei der „objektiven Bewertung'. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!