L'incident de suivi de l'équipe de Stanford plagiant un grand modèle de l'Université Tsinghua - l'équipe
Llama3-V a admis le plagiat, et deux des étudiants de premier cycle de Stanford ont également rompu les liens avec un autre auteur.
Les derniers tweets d'excuses, envoyés par Siddharth Sharma(Siddhartha) et Aksh Garg(Akshy).
Pas parmi eux, Mustafa Aljadery (appelé Lao Mu) de l'Université de Californie du Sud est accusé d'être le principal responsable de la faute, et il a disparu depuis hier :
Nous espérons que Lao Mu fera le première déclaration, mais depuis hier, il n'a pas pu être joint.
Siddharth, I (Akshi) et Lao Mu ont sorti Llama3-V, et Lao Mu a écrit le code du projet.
Siddharth et mon rôle est de l'aider à promouvoir ce modèle sur Medium et Twitter. J'ai consulté des articles récents pour vérifier le caractère innovant du travail, mais on ne nous l'a pas dit et j'ai découvert des travaux antérieurs sur l'intelligence des murs.
Lao Mu lui-même, qui a été accusé de fugue, la page d'accueil X est actuellement dans l'état de verrouillage de protection, et vous ne pouvez la suivre qu'en postulant :
Dans l'ensemble, ce tweet d'excuses et le celui d'hier a été supprimé à la hâte après avoir été envoyé. Le contenu des tweets qui ont été publiés est à peu près le même, se concentrant principalement sur les excuses et en déplaçant davantage le blâme.
Après tout, même Christopher Manning, directeur du laboratoire d'intelligence artificielle de Stanford, est sorti et a commencé à se plaindre :
C'est un cas typique de ne pas admettre ses erreurs !
Il pensait que l'équipe avait évité les problèmes importants après l'incident, en utilisant les excuses d'une "architecture similaire" et "Le MiniCPM a été mis en œuvre plus rapidement que nous", et a refusé d'admettre qu'il s'agissait d'un plagiat.
Mais la nouvelle déclaration d’excuses n’a pas dissipé les doutes des internautes. Et les dernières révélations soulignent également que ces frères sont simplement des récidivistes du plagiat, et que les manuels qu'ils ont écrits auparavant ont également été plagiés.
Quant à l'équipe d'auteur originale Face Wall Intelligence, outre le PDG Li Dahai qui a répondu hier que "c'est aussi une méthode reconnue par les équipes internationales", le scientifique en chef Liu Zhiyuan est également apparu sur Zhihu" Réponse personnelle :
Je suis déjà assez convaincu que Llama3-V convient à notre shell MiniCPM-Llama3-V 2.5.
Le développement rapide de l'intelligence artificielle est indissociable du partage open source d'algorithmes, de données et de modèles mondiaux, afin que les gens puissent toujours s'appuyer sur les épaules de SOTA et continuer à avancer. Notre open source MiniCPM-Llama3-V 2.5 utilise cette fois le dernier Llama3 comme base de modèle de langage. La pierre angulaire du partage open source est le respect des protocoles open source, la confiance dans les autres contributeurs, ainsi que le respect et l'hommage aux réalisations des prédécesseurs. L'équipe Llama3-V a sans aucun doute gravement endommagé cela. Ils ont supprimé leur base de données de Huggingface après avoir été interrogés. Deux des trois membres de l'équipe ne sont que des étudiants de premier cycle à l'Université de Stanford. Si les erreurs peuvent être corrigées, ce sera un grand progrès. amélioration.
Examinons d’abord brièvement ce gros melon.
Pour résumer en une phrase, certains internautes ont découvert que le grand modèle multimodal de l'équipe de Stanford Llama3-V, qui est récemment devenu populaire dans la communauté open source, a presque la même architecture et le même code que le MiniCPM-Llama3 domestique. -V 2.5, et en a répertorié de nombreux. Les preuves indiquent directement le plagiat de Llama3-V.
Au fur et à mesure que l'incident se déroulait, l'équipe Stanford AI a supprimé la base de données et s'est enfuie, et l'équipe Wall-Facing Intelligence a également lancé une enquête sur l'affaire.
Liu Zhiyuan, scientifique en chef de l'intelligence face aux murs et professeur agrégé permanent de l'Université Tsinghua, a donné une raison majeure pour laquelle Llama3-V est la coque MiniCPM-Llama3-V 2.5, qui est précisément la capacité de reconnaissance de Tsinghua Jane.
Il s'agit de la capacité "Easter egg" de MiniCPM-Llama3-V 2.5. Ils ont été formés à l'aide d'un ensemble de données numérisées et annotées de l'Université Tsinghua Jane Elle n'a pas été rendue publique. Les performances de Llama3-V sont exactement les mêmes que celles de MiniCPM-Llama3-V 2.5. Non seulement les bonnes questions sont les mêmes, mais les erreurs sont également les mêmes.
Aujourd'hui, sur la base de la première vague de preuves, d'autres internautes ont découvert de nouveaux indices. Certaines personnes ont découvert après des recherches que la différence de poids de presque toutes les couches de Llama3-V est conforme à une distribution gaussienne avec une moyenne de 0 et un écart type de 1,4e-3. On suppose donc que Llama3-V ajoute simplement dubruit à faible variance directement au poids du MiniCPM.
De plus, il a été révélé que le grand frère qui s'est enfui, Lao Mu, avait déjà écrit un livre sur "Computer Network Design", et qu'il l'avait également copié.
Sortez un chapitre du livre au hasard et utilisez un détecteur de plagiat pour le détecter, et vous verrez un tas de points rouges :
Et, dans la chronique auteur de ce livre, selon les internautes, il y a aussi Siddha Beaucoup de noms.
Certains internautes pensent qu'il reste à déterminer si la copie de livres est vraie. Cependant, maintenant ce livre est aussi
404.
Parlant de ce plagiat, les déclarations d'excuses de Siddharth et Akshay ont également mentionné que la raison pour laquelle ils ont promu ce projet avec Brother Mu était qu'ils avaient été initialement surpris par ce modèle multimodal. J'aime particulièrement les extensions d'architecture basées. sur Idefics, SigLip et UHD décrits par Brother Mu.
Mais en fait, les internautes ont découvert très tôt que l'implémentation spécifique de Llama3-V dans de nombreux aspects tels que le mode spatial est différente de LLaVA-UHD, mais elle est étonnamment cohérente avec MiniCPM-Llama3-V 2.5.
Selon la page d'accueil de MiniCPM-Llama3-V 2.5, MiniCPM-Llama3-V 2.5 est le dernier modèle open source de la série intelligente MiniCPM-V face aux murs. Il est construit sur la base de SigLip-400M et Llama3-8B-Instruct. , avec un total de 8B paramètres.
En termes de performances, MiniCPM-Llama3-V 2.5 a obtenu un score moyen de 65,1 sur OpenCompass, surpassant les modèles propriétaires tels que GPT-4V-1106, Gemini Pro, Claude 3, Qwen-VL-Max, etc., et de manière significative Surpassant les autres modèles de langage multimodaux basés sur Llama 3.
De plus, MiniCPM-Llama3-V 2.5 possède également de fortes capacités OCR, avec un score de 700+ sur OCRBench, surpassant GPT-4o, GPT-4V-0409, Qwen-VL-Max et Gemini Pro.
Basé sur la dernière méthode RLAIF-V, MiniCPM-Llama3-V 2.5 a un taux d'illusion de 10,3% sur Object HalBench, qui est également inférieur aux 13,6% de GPT-4V-1106.
Bien que le blâme ait été rapidement rejeté, les internautes ont rapidement découvert les points positifs dans les déclarations d'excuses d'Akshay et Siddharth :
Vous n'avez rien co-écrit Si vous ne le faites pas, vous sera considéré comme l'auteur du projet si vous contribuez à la promotion ?
Quand cela a été annoncé, on disait que c'était le projet de vous trois, mais si quelque chose ne va pas, la faute sera-t-elle rejetée sur une seule personne ?
Si Lao Mu a écrit tout le code seul, alors que faites-vous tous les deux, il suffit de poster ?
Certains internautes ont soulevé un sujet plus critique, suscitant encore davantage de discussions animées :
La communauté open source a-t-elle ignoré les résultats des grands modèles en provenance de Chine ?
Lucas Beyer, chercheur Google DeepMind et auteur de ViT, a mentionné que Llama3-V a été copié, mais que le coût est inférieur à 500 dollars américains, et que l'effet peut directement rattraper les modèles open source Gemini et GPT-4 :
Mais ce n'est pas pareil Par rapport à Llama3-V, MiniCPM a reçu beaucoup moins d'attention, moi y compris.
La raison principale semble être qu'un tel modèle provient d'un laboratoire chinois et non d'une école de l'Ivy League.
Omar Sanseviero, responsable de la plateforme et de la communauté Huaqiang, l'a dit plus directement :
La communauté a ignoré le travail de l'écosystème chinois d'apprentissage automatique. Ils font des choses étonnantes avec de grands modèles de langage, de grands modèles de vision, des modèles audio et de diffusion intéressants.
Y compris Qwen, Yi, DeepSeek, Yuan, WizardLM, ChatGLM, CogVLM, Baichuan, InternLM, OpenBMB, Skywork, ChatTTS, Ernie, HunyunDiT et plus encore.
De nombreux internautes étaient d'accord avec cela : "Ils ont actuellement lancé le meilleur VLM open source."
D'un point de vue plus objectif de l'arène du grand modèle, cette affirmation est vraie.
Dans l'arène visuelle des grands modèles où les modèles s'affrontent en tête-à-tête, Yi-VL-Plus de 01Wansheng s'est classé cinquième, surpassant Gemini Pro Vision de Google. CogVLM, une collaboration entre Zhipu AI et l'Université Tsinghua, figure également dans le top dix.
De plus, DeepSeek, Tongyi Qianwen et la série MiniCPM de modèles multimodaux qui ont été plagiés cette fois ont également bien performé.
Dans la liste d'arènes LMSYS Chatbot Arena plus largement reconnue, les grands modèles chinois établissent également constamment de nouveaux records pour "l'open source le plus puissant".
Comme l'a dit le professeur Liu Zhiyuan :
D'un point de vue horizontal, nous avons évidemment encore un écart important avec les meilleurs travaux internationaux tels que Sora et GPT-4o. En même temps, d'un point de vue vertical, nous sommes rapidement passés de personne il y a plus de dix ans à leader ; dans l’innovation technologique de l’intelligence artificielle.
Ce melon est énorme, beaucoup de gens en mangent et peut-être plus important encore, certains stéréotypes s'effondrent. Qu'en penses-tu?
Article original MiniCPMhttps://arxiv.org/abs/2404.06395
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!