Maison > Périphériques technologiques > IA > A vaincu Gemini-1.5-Pro ​​​​et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

A vaincu Gemini-1.5-Pro ​​​​et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

PHPz
Libérer: 2024-06-29 00:25:01
original
981 Les gens l'ont consulté

Récemment, le grand modèle de Yuncong Technology a fait des progrès significatifs dans le domaine de l'évaluation multimodale d'OpenCompass, la plateforme d'évaluation complète faisant autorité. Les derniers résultats d'évaluation montrent que le score moyen du grand modèle Congrong de Yuncong Technology dans ce système est de 65,5. Ce résultat place le grand modèle Congrong parmi les trois premiers au monde, dépassant le Gemini-1.5-Pro ​​​​et le GPT-4v de Google. se classant deuxième sur GPT-4o (69,9) et Claude3.5-Sonnet (67,9). Sur le marché intérieur, les performances du grand modèle ont également dépassé InternVL-Chat (61,7) et GLM-4V (60,8), se classant au premier rang.

A vaincu Gemini-1.5-Pro ​​​​et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

1. Liste multimodale OpenCompass
  1. Le système d'évaluation ouvert à grand modèle OpenCompass est un cadre d'évaluation open source complet et reproductible lancé par le laboratoire d'intelligence artificielle de Shanghai.
  2. L'évaluation multimodale OpenCompass utilise 8 ensembles de données représentatifs pour quantifier objectivement les capacités des grands modèles multimodaux sous plusieurs perspectives et évalue la couverture dimensionnelle :

    • Détection de cible
    • Reconnaissance de texte
    • Reconnaissance d'action
    • Compréhension de l'image et raisonnement relationnel
    • Art et design
    • Business
    • Sciences
    • Santé et médecine
    • Sciences humaines et sociales
    • Technologie et ingénierie
    • Raisonnement mathématique

      A vaincu Gemini-1.5-Pro ​​​​et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

      Figure 2 : Calm grand modèle-2.0 Exemples de multimodal capacités

Dans cette évaluation, le grand modèle Congrong a bien fonctionné dans 6 des ensembles de données, se classant premier dans le pays (MMbench, MMStar, MathVista, HallusionBench, AI2D, OCRBench), en particulier dans Sur l'ensemble de test OCRBench, il a obtenu le score le plus élevé au monde avec 827 points (sur 1000 points), et était 13 points de plus que le GLM-4v, deuxième place, améliorant encore la capacité du grand modèle Ronong en matière de reconnaissance de texte et de question visuelle centrée sur le texte. réponse et orienté document L'applicabilité dans des scénarios commerciaux tels que la réponse visuelle aux questions et l'extraction d'informations clés.

A vaincu Gemini-1.5-Pro ​​​​et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

Figure 3 : Démonstration des capacités des grands modèles d'OpenCompass China

Les excellentes performances du grand modèle Rongrong dans ce système reposent sur l'architecture de traitement multimodale efficace et la technologie informatique avancée développée indépendamment par Yuncong Technology pour obtenir un multimodal efficace. Les capacités de traitement des données modales peuvent réaliser une fusion et une commutation efficaces entre les tâches visuelles et linguistiques, et maximiser l'utilisation des ressources informatiques pour garantir que des performances et une vitesse de réponse élevées peuvent être maintenues lors du traitement de données multimodales à grande échelle, créant ainsi le modèle Le processus de formation est plus efficace, la vitesse de convergence est plus rapide et les performances sont plus stables.

Dans le même temps, il bénéficie également de l’accumulation profonde à long terme et de l’innovation continue de Yuncong Technology dans les domaines de la vision et du langage.

A vaincu Gemini-1.5-Pro ​​​​et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

                                                                                                                                                                                                                               Exemple de capacité multimodale 2.0, classé parmi les cinq premiers au monde.

En tant qu'entreprise de plateforme axée sur la recherche et le développement de technologies de collaboration homme-machine,

Yuncong Technology promeut activement le développement et l'application des agents IA et de la technologie des grands modèles. Avec le développement rapide de la technologie de l’intelligence artificielle, les grands modèles multimodaux sont devenus le principal moteur du changement industriel. Les performances exceptionnelles du modèle Rongrong dans le

OpenCompass grand modèle d'évaluation ouvert

ne sont pas seulement une reconnaissance de la force d'innovation technologique de Yuncong Technology, mais donnent également l'exemple dans l'industrie et inspirent les entreprises technologiques mondiales dans le nouveau cycle. de l’intelligence artificielle. Atteignez les sommets de la compétition.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal