Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente

王林
Freigeben: 2024-08-22 22:38:25
Original
559 Leute haben es durchsucht
Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente

Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail zur Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


Groß angelegte Sprachmodelle, dargestellt durch GPT, läuten den Beginn der allgemeinen künstlichen Intelligenz im digitalen kognitiven Raum ein. Diese Modelle demonstrieren durch die Verarbeitung und Generierung natürlicher Sprache leistungsstarke Verständnis- und Argumentationsfähigkeiten und haben breite Anwendungsaussichten in mehreren Bereichen gezeigt. Ob bei der Generierung von Inhalten, automatisiertem Kundenservice, Produktivitätstools, KI-Suche oder in Bereichen wie Bildung und medizinischer Versorgung – groß angelegte Sprachmodelle fördern ständig den technologischen Fortschritt und die Popularisierung von Anwendungen.

Um jedoch die allgemeine künstliche Intelligenz bei der Erforschung der physischen Welt zu fördern, besteht der erste Schritt darin, das Problem des visuellen Verständnisses, also des multimodalen Verständnisses großer Modelle, zu lösen. Multimodales Verständnis ermöglicht es der KI, die Welt besser zu verstehen und mit ihr zu interagieren, indem sie Informationen über mehrere Sinne erfasst und verarbeitet, genau wie Menschen. Durchbrüche in diesem Bereich werden es der künstlichen Intelligenz ermöglichen, größere Fortschritte in der Robotik, dem autonomen Fahren usw. zu machen und den Sprung von der digitalen Welt in die physische Welt wirklich zu verwirklichen.

GPT-4V wurde im Juni letzten Jahres veröffentlicht, aber im Vergleich zu großen Sprachmodellen scheint die Entwicklung multimodaler Verständnismodelle langsamer zu sein, insbesondere im chinesischen Bereich. Darüber hinaus hat die Branche im Gegensatz zur technischen Route und Auswahl großer Sprachmodelle, die relativ sicher sind, noch keinen vollständigen Konsens über die Architektur und Auswahl der Trainingsmethoden für multimodale Modelle erzielt.

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente

”” ”” ”Der Entwicklungspfad großer Modelle vom kognitiven Raum bis zur physischen Welt. Er startete zuerst ein Multi-Mode-Modell, das auf MOE-Architektur auf Basis von MOE-Architektur nachempfunden ist. modernes Verständnis großer Modelle. Das Modell wurde in Bezug auf Architektur, Trainingsmethoden und Datenverarbeitung innovativ und umfassend optimiert, wodurch seine Leistung erheblich verbessert wurde und das Verständnis von Bildern mit jedem Seitenverhältnis und einer Auflösung von bis zu 7K unterstützt wurde. Im Gegensatz zu den meisten multimodalen Modellen, die hauptsächlich auf Open-Source-Benchmarks abgestimmt sind, legt das hybride multimodale Modell von Tencent mehr Wert auf die Vielseitigkeit, Praktikabilität und Zuverlässigkeit des Modells und verfügt über umfassende Funktionen zum Verständnis multimodaler Szenen. In der kürzlich veröffentlichten Benchmark-Bewertung des chinesischen multimodalen Großmodells SuperCLUE-V (August 2024) belegte Tencent Hunyuan den ersten Platz im Land und übertraf damit mehrere gängige Closed-Source-Modelle.

Methodeneinführung: MoE-Architektur

Tencent Mixed Language Large Model ist das erste in China, das die Mixed Expert Model (MoE)-Architektur übernimmt. Die Gesamtleistung des Modells ist 50 % höher als die vorherige Generation und einige chinesische Fähigkeiten Es knüpft an GPT-4o an und hat seine Leistung bei der Beantwortung „aktueller“ Fragen sowie in Mathematik, Argumentation und anderen Fähigkeiten erheblich verbessert. Bereits Anfang dieses Jahres hat Tencent Hunyuan dieses Modell auf Tencent Yuanbao angewendet.
Tencent Hunyuan glaubt, dass die MoE-Architektur, die eine große Anzahl allgemeiner Aufgaben lösen kann, auch die beste Wahl für multimodale Verständnisszenarien ist. MoE kann besser mit mehr Modalitäten und Aufgaben kompatibel sein und sicherstellen, dass sich verschiedene Modalitäten und Aufgaben gegenseitig verstärken und nicht konkurrieren.

Auf der Grundlage der Fähigkeiten des großen Sprachmodells von Tencent Hunyuan hat Tencent Hunyuan ein großes multimodales Verständnismodell auf Basis der MoE-Architektur eingeführt und Innovationen und tiefgreifende Optimierungen in Bezug auf Architektur, Trainingsmethoden und Daten vorgenommen Die Verarbeitung und die Leistung wurden deutlich verbessert. Dies ist auch das erste multimodale Großmodell auf Basis der MoE-Architektur in China.

模 Schematische Darstellung der multimodalen Modellarchitektur mit gemischten Elementen von Tencent folgt einfachen und vernünftigen Skalierbarkeitsprinzipien:
Unterstützt native beliebige Auflösungen: Im Vergleich zu den branchenüblichen Methoden mit fester Auflösung oder Cut-Subgraph-Methoden kann das hybride multimodale Modell von Tencent native Bilder jeder beliebigen Auflösung verarbeiten Multimodales Modell zur Unterstützung des Bildverständnisses mit Auflösungen über 7K und jedem Seitenverhältnis (z. B. 16:1, siehe Beispiel unten).
Verwendung eines einfachen MLP-Adapters: Im Vergleich zum vorherigen Mainstream-Q-Former-Adapter weist der MLP-Adapter weniger Verluste bei der Informationsübertragung auf.

Dieses einfache Design erleichtert die Erweiterung und Skalierung von Modellen und Daten.

  • SuperClue-V belegt den ersten Platz in der inländischen Liste
  • Im August 2024 veröffentlichte SuperCLUE zum ersten Mal die multimodale Verständnisbewertungsliste – SuperClue-V.

Der SuperCLUE-V-Benchmark umfasst zwei allgemeine Richtungen: grundlegende Fähigkeiten und Anwendungsfähigkeiten. Er bewertet multimodale große Modelle in Form offener Fragen, darunter 8 Dimensionen der ersten Ebene und 30 Dimensionen der zweiten Ebene.

In dieser Bewertung erreichte das multimodale Verständnissystem von Hunyuan, hunyuan-vision, eine Punktzahl von 71,95 und lag damit nur hinter GPT-4o an zweiter Stelle. Bei multimodalen Anwendungen liegt hunyuan-vision vor Claude3.5-Sonnet und Gemini-1.5-Pro.

Es ist erwähnenswert, dass sich frühere multimodale Beurteilungen in der Branche hauptsächlich auf Englischkenntnisse konzentrierten und die meisten Beurteilungsfragen Multiple-Choice- oder Richtig-Falsch-Fragen waren. Die SuperCLUE-V-Bewertung konzentriert sich mehr auf die Bewertung der Chinesischkenntnisse und konzentriert sich auf die tatsächlichen Probleme der Benutzer. Da es sich außerdem um die erste Veröffentlichung handelt, ist noch keine Überanpassung aufgetreten.

Das Tencent Hunyuan Graphics and Text Large Model zeigt eine gute Leistung in mehreren Dimensionen wie allgemeine Szenen, Bild-OCR-Erkennung und -Verständnis sowie Verständnis und Argumentation chinesischer Elemente und spiegelt auch das Potenzial des Modells in zukünftigen Anwendungen wider .

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente

Auf allgemeine Anwendungsszenarien ausgerichtet

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter ElementeDas multimodale Verständnismodell mit gemischten Elementen ist für allgemeine Szenarien und umfangreiche Anwendungen optimiert und hat Dutzende Millionen verwandter Frage- und Antwortkorpus angesammelt, die grundlegende Themen abdecken Bildverständnis, Inhaltserstellung. Es kann in vielen Szenarien verwendet werden, z. B. bei der Argumentationsanalyse, bei Wissensfragen und -antworten, bei der OCR-Dokumentenanalyse und bei der Beantwortung von Themen. Im Folgenden finden Sie einige typische Anwendungsbeispiele.

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente

Hier sind weitere typische Beispiele:

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente

Konvertieren Sie ein Bild in eine Texttabelle:

Erklären Sie einen Code:

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter ElementeAnalysieren Sie eine Rechnung:


Beschreibung Bildinhalt:

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente Lösen Sie mathematische Aufgaben:

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente Analysieren Sie anhand des Bildinhalts:

Chinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente Helfen Sie beim Schreiben von Texten:

Derzeit wurde Tencents multimodales Verständnis-Großmodell Hunyuan im KI-Assistentenprodukt Tencent Yuanbao eingeführt und steht Unternehmen und einzelnen Entwicklern über Tencent Cloud offen.

Tencent Yuanbao-Adresse: https://yuanbao.tencent.com/chat

Das obige ist der detaillierte Inhalt vonChinas erstes selbst entwickeltes multimodales MoE-Großmodell offenbart Tencents multimodales Verständnis gemischter Elemente. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage