GPT-5 n'est pas encore sorti, Grok a rattrapé son retard.
Le même jour où Google et OpenAI prenaient des nouvelles l'un de l'autre, le xAI de Musk n'était pas non plus inactif.
Mercredi après-midi, heure de Pékin, xAI a officiellement lancé le grand modèle Grok 2 de nouvelle génération.
Chatbot Arena, une organisation tierce de référence de grands modèles, a également immédiatement mis à jour la liste des résultats de la liste LMSYS. Le premier modèle de Grok 2 (sus-column-r) peut être classé quatrième juste derrière le GPT-4o (version 0513), surpassant Claude 3.5 Sonnet et GPT-4-Turbo.
Il excelle dans le codage, les problèmes complexes et les mathématiques.
Musk n'a pas pu s'empêcher de se vanter : "La vitesse de propulsion de Grok est comme une fusée."
Notez qu'il ne s'agit que du score de la première version qui a déclaré qu'elle serait testée. la version officielle à l'avenir.
Musk a déclaré que Grok-2 est un modèle de langage avancé doté des capacités de raisonnement les plus avancées. La nouvelle génération comprend deux versions : Grok-2 et Grok-2 mini. Les deux modèles sont désormais disponibles sur la plateforme X pour les utilisateurs de Grok. Actuellement, les utilisateurs de X Premium et Premium+ peuvent déjà découvrir les mini modèles Grok-2 et Grok-2.
Par rapport à la précédente Grok-1.5, la première version préliminaire de Grok-2 a réalisé des progrès significatifs, démontrant des capacités de pointe en matière de chat, de raisonnement, de codage, etc. Grok-2 et Grok-2 mini sont actuellement en version bêta sur X et seront disponibles via une API d'entreprise plus tard ce mois-ci, a indiqué xAI.
Moins d'une demi-heure après la sortie du nouveau modèle, un internaute montrait déjà les résultats. Il a utilisé Grok 2 mini pour générer une image de "Moi et Musk mangeant des hot-dogs".
Essayez d'autres méthodes pour générer un portrait de Washington.
Certaines personnes ont également essayé Grok 2 mini pour générer un chat volant.
Quelqu'un d'autre a construit une Tesla Model Y, est-ce qu'elle lui ressemble ?
Avec xAI mettant la première version de Grok-2 "sus-column-r" dans Chatbot Arena, nous le voyons en concurrence avec d'autres commutateurs populaires Comparaison des performances de la source modèles.
En termes de score Elo global, Grok-2 fonctionne mieux que les modèles de la série Claude et la plupart des versions de GPT-4. Bien entendu, le premier de la liste est GPT-4o (version du 8 août), qu’OpenAI vient de publier ces jours-ci.
L'image ci-dessous montre la comparaison du taux de victoire entre le Grok-2 et d'autres modèles populaires.
L'image ci-dessous montre une comparaison factuelle des taux de victoire entre les deux versions de Grok 1.5 et Grok 2.
xAI adopte ce processus pour évaluer le modèle Grok 2, en utilisant des tuteurs IA pour véritablement interagir avec le modèle dans diverses tâches. Lors de chaque interaction, Grok 2 fournit deux réponses aux tuteurs IA puis sélectionne la meilleure réponse en fonction de critères spécifiques répertoriés dans le guide.
xAI se concentre sur l'évaluation des performances du modèle dans deux domaines clés, à savoir le suivi des instructions et la fourniture d'informations précises et authentiques. Les résultats montrent des améliorations significatives dans la capacité de Grok 2 à raisonner à partir du contenu récupéré et à utiliser des outils tels que l'identification correcte des informations manquantes, le raisonnement à travers des séquences d'événements, l'élimination des messages non pertinents, etc.
xAI a évalué le modèle Grok-2 sur une gamme de critères académiques, notamment le raisonnement, la compréhension en lecture, les mathématiques, les sciences et le codage.
Le Grok-2 et le Grok-2 mini sont des améliorations significatives par rapport au modèle précédent Grok-1.5. Les performances sont comparables à celles d'autres modèles de pointe dans des domaines tels que les connaissances scientifiques de niveau supérieur (GPQA), les connaissances générales (MMLU, MMLU-Pro) et les problèmes de compétition en mathématiques (MATH).
De plus, Grok-2 fonctionne également bien dans les tâches basées sur la vision, avec des performances remarquables en raisonnement mathématique visuel (MathVista) et en réponse à des questions basées sur des documents (DocVQA).
Interface et fonctionnalités de Grok 2 "grande refonte"
Au cours des derniers mois, xAI a continuellement amélioré l'expérience Grok sur la plateforme x. Désormais, avec le lancement de la nouvelle génération Grok 2, xAI a repensé l'interface, comme indiqué ci-dessous.
Bien sûr, xAI fournit quelques nouvelles fonctionnalités, comme une implémentation simple du "Game of Life" de Conway.
Un autre exemple est la capacité de compréhension multimodale (regarder des images et parler).
Parmi eux, Grok-2 est l'assistant d'IA le plus avancé de xAI, avec des capacités de compréhension textuelle et visuelle et des informations intégrées en temps réel de la plateforme X, accessibles via l'onglet Grok de l'application X.
Le Grok-2 mini est un modèle petit mais puissant qui offre un bon équilibre entre vitesse et qualité de réponse.
Par rapport à son prédécesseur, Grok-2 est plus intuitif, plus contrôlable et plus flexible, adapté à une variété de tâches, que vous recherchiez des réponses, une écriture collaborative ou la résolution de tâches de codage.
De plus, xAI s'associe à la startup
Black Forest Labspour expérimenter leur modèle FLUX.1 afin d'étendre les capacités de Grok sur X.
Plus tard ce mois-ci, xAI publiera également Grok-2 et Grok-2 mini pour les développeurs via une nouvelle plate-forme API d'entreprise. La prochaine API repose sur une nouvelle pile technologique personnalisée qui permet des déploiements d'inférence multirégionaux pour un accès mondial à faible latence.
Bien entendu, xAI offre également des fonctionnalités de sécurité améliorées, telles que l'authentification multifacteur obligatoire (par exemple en utilisant Yubikey, Apple TouchID ou TOTP).
Comme vous pouvez le constater, depuis le lancement de Grok-1 en novembre 2023, xAI a fait progresser cette série de modèles à un rythme alarmant. Bientôt, ils publieront une version préliminaire avec une compréhension multimodale. Après xAI, l’objectif sera d’améliorer les capacités de raisonnement de base du modèle grâce à de nouveaux clusters informatiques.
Adresse du blog : https://x.ai/blog/grok-2
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!