Pourquoi l'ICLR n'a-t-elle pas accepté l'article de Mamba ? La communauté IA a déclenché une grande discussion-IA-php.cn

En 2023, le statut de Transformer, acteur dominant dans le domaine des grands modèles d'IA, commencera à être remis en cause. Une nouvelle architecture appelée « Mamba » est apparue. Il s'agit d'un modèle d'espace d'état sélectif qui est comparable à Transformer en termes de modélisation du langage, et pourrait même le surpasser. Dans le même temps, Mamba peut atteindre une mise à l'échelle linéaire à mesure que la longueur du contexte augmente, ce qui lui permet de gérer des séquences d'un million de mots et d'améliorer de 5 fois le débit d'inférence lors du traitement de données réelles. Cette amélioration révolutionnaire des performances est accrocheuse et apporte de nouvelles possibilités au développement du domaine de l'IA.

Plus d'un mois après sa sortie, Mamba a commencé à montrer progressivement son influence et a donné naissance à de nombreux projets tels que MoE-Mamba, Vision Mamba, VMamba, U-Mamba, MambaByte, etc. Mamba a montré un grand potentiel en surmontant continuellement les lacunes de Transformer. Ces développements démontrent le développement et les progrès continus de Mamba, ouvrant de nouvelles possibilités dans le domaine de l’intelligence artificielle.

Cependant, cette « étoile » montante a rencontré un revers lors de la réunion ICLR 2024. Les derniers résultats publics montrent que l’article de Mamba est toujours en attente. Nous ne pouvons voir que son nom dans la colonne des décisions en attente, et nous ne pouvons pas déterminer s’il a été retardé ou rejeté.

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Dans l'ensemble, Mamba a reçu des notes de quatre évaluateurs, qui étaient respectivement de 8/8/6/3. Certaines personnes ont dit qu'il était vraiment déroutant d'être encore rejeté après avoir reçu une telle note.

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Pour comprendre la raison, nous devons regarder ce que disent les évaluateurs qui ont donné des notes faibles.

Page de révision de l'article : https://openreview.net/forum?id=AL1fq05o7H

Pourquoi « pas assez bon » ?

Dans les commentaires de l'évaluation, l'évaluateur qui a donné une note de « 3 : rejeté, pas assez bon » a expliqué plusieurs opinions sur Mamba :

Réflexions sur la conception du modèle :

La motivation de Mamba est de répondre les défauts des modèles récursifs tout en améliorant l’efficacité des modèles basés sur l’attention. Il existe de nombreuses études allant dans ce sens : S4-diagonal [1], SGConv [2], MEGA [3], SPADE [4] et de nombreux modèles de transformateurs efficaces (par exemple [5]). Tous ces modèles atteignent une complexité quasi linéaire et les auteurs doivent comparer Mamba avec ces travaux en termes de performances et d'efficacité des modèles. Concernant les performances du modèle, quelques expériences simples (telles que la modélisation du langage Wikitext-103) suffisent.
De nombreux modèles Transformer basés sur l'attention montrent une capacité de généralisation de longueur, c'est-à-dire que le modèle peut être entraîné sur des longueurs de séquence plus courtes et testé sur des longueurs de séquence plus longues. Les exemples incluent le codage de position relative (T5) et l'alibi [6]. Puisque SSM est généralement continu, Mamba a-t-il cette capacité de généralisation de longueur ?

Réflexions sur l'expérience :

Les auteurs doivent comparer avec une base de référence plus solide. Les auteurs ont déclaré que H3 était utilisé comme motivation pour l'architecture du modèle, mais ils n'ont pas fait de comparaison avec H3 dans les expériences. Selon le tableau 4 de [7], sur l'ensemble de données Pile, les ppl de H3 sont respectivement de 8,8 (1,25 M), 7,1 (3,55 M) et 6,0 (1,3B), ce qui est nettement meilleur que celui de Mamba. Les auteurs doivent montrer une comparaison avec H3.
Pour le modèle pré-entraîné, l'auteur ne montre que les résultats de l'inférence à échantillon nul. Cette configuration est plutôt limitée et les résultats ne soutiennent pas bien l'efficacité de Mamba. Je recommande aux auteurs de mener davantage d'expériences avec de longues séquences, telles que le résumé de documents, où les séquences d'entrée sont naturellement très longues (par exemple, la longueur moyenne des séquences de l'ensemble de données arXiv est > 8 000).
L'auteur affirme que l'une de ses principales contributions est la modélisation de séquences longues. Les auteurs devraient comparer avec davantage de références sur LRA (Long Range Arena), qui est fondamentalement la référence standard pour la compréhension des séquences longues.
Repère de mémoire manquant. Bien que la section 4.5 soit intitulée « Benchmarks de vitesse et de mémoire », seules des comparaisons de vitesse sont présentées. De plus, les auteurs doivent fournir des paramètres plus détaillés sur le côté gauche de la figure 8, tels que les couches du modèle, la taille du modèle, les détails de convolution, etc. Les auteurs peuvent-ils expliquer pourquoi FlashAttention est le plus lent lorsque la longueur de la séquence est très grande (Figure 8 à gauche) ?

De plus, un autre critique a également souligné une lacune de Mamba : le modèle a encore des besoins en mémoire secondaire lors de l'entraînement comme Transformers.

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Auteur : Révisé, veuillez réviser

Après avoir résumé les opinions de tous les évaluateurs, l'équipe d'auteurs a également révisé et amélioré le contenu de l'article et ajouté de nouveaux résultats expérimentaux et analyses :

Ajout des résultats d'évaluation de Modèle H3

L'auteur a téléchargé le modèle H3 pré-entraîné d'une taille de paramètres 125M-2,7B et a mené une série d'évaluations. Mamba est nettement meilleur dans toutes les évaluations de langage. Il convient de noter que ces modèles H3 sont des modèles hybrides utilisant une attention quadratique, tandis que le modèle pur de l'auteur utilisant uniquement la couche Mamba en temps linéaire est nettement meilleur dans tous les indicateurs.

La comparaison d'évaluation avec le modèle H3 pré-entraîné est la suivante :

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Mise à l'échelle du modèle entièrement entraîné vers une taille de modèle plus grande

comme indiqué dans la figure ci-dessous , comparé à Par rapport au modèle open source 3B formé avec le même nombre de jetons (300B), Mamba est supérieur dans chaque résultat d'évaluation. Il est même comparable aux modèles à l'échelle 7B : en comparant Mamba (2,8B) avec OPT, Pythia et RWKV (7B), Mamba obtient le meilleur score moyen et le meilleur/deuxième meilleur sur chaque score de référence.

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

montrant les résultats de l'extrapolation de longueur au-delà de la longueur d'entraînement

L'auteur a joint une figure évaluant l'extrapolation de longueur du modèle de langage paramétrique 3B pré-entraîné :

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Le graphique trace la perte moyenne par position (lisibilité du journal). La perplexité du premier jeton est élevée car il n'a pas de contexte, tandis que la perplexité de Mamba et du Transformer de base (Pythia) augmente avant la longueur du contexte d'entraînement (2048). Il est intéressant de noter que la solvabilité de Mamba s'améliore considérablement au-delà de son contexte d'entraînement, jusqu'à une durée d'environ 3 000.

L'auteur souligne que l'extrapolation de longueur n'est pas la motivation directe du modèle dans cet article, mais la traite comme une fonctionnalité supplémentaire :

Le modèle de base (Pythia) ici ne prend pas en compte l'extrapolation de longueur lors de l'entraînement, Il peut exister d'autres variantes de Transformer plus polyvalentes (telles que l'encodage de position relative T5 ou Alibi).
Je n'ai trouvé aucun modèle 3B open source formé sur Pile à l'aide de l'encodage de position relative, cette comparaison ne peut donc pas être faite.
Mamba, comme Pythia, ne prend pas en compte l'extrapolation de longueur lors de l'entraînement, ce n'est donc pas comparable. Tout comme les transformateurs disposent de nombreuses techniques (telles que différentes intégrations de position) pour améliorer leurs capacités en matière d'isométrie de généralisation de longueur, il pourrait être intéressant dans les travaux futurs de dériver des techniques spécifiques au SSM pour des capacités similaires.

Complété par de nouveaux résultats sur WikiText-103

L'auteur a analysé les résultats de plusieurs articles, montrant que Mamba fonctionne nettement mieux sur WikiText-103 que les autres plus de 20 derniers modèles de séquences sous-quadratiques.

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Malgré cela, deux mois se sont écoulés, et ce document est toujours dans le processus "Décision en attente", sans résultat clair d'"acceptation" ou de "rejet".

Ces articles rejetés par les meilleures conférences

Dans les grandes conférences sur l'IA, « l'explosion du nombre de soumissions » est un problème gênant, donc les évaluateurs avec une énergie limitée feront inévitablement des erreurs. Cela a conduit au rejet de nombreux articles célèbres de l'histoire, notamment YOLO, Transformer XL, Dropout, Support Vector Machine (SVM), Knowledge Distillation, SIFT et l'algorithme de classement des pages Web du moteur de recherche Google, PageRank (voir : "Les célèbres YOLO et PageRank des recherches influentes ont été rejetées par la plus haute conférence CS").

Même Yann LeCun, l'un des trois géants du deep learning, est aussi un papetier majeur qui est souvent rejeté. Tout à l'heure, il a tweeté que son article « Deep Convolutional Networks on Graph-Structured Data », qui a été cité 1 887 fois, avait également été rejeté par la plus haute conférence.

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Lors de l'ICML 2022, il a même "soumis trois articles et trois ont été rejetés".

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Donc, ce n'est pas parce que l'article est rejeté par une certaine grande conférence qu'il n'a aucune valeur. Parmi les articles rejetés mentionnés ci-dessus, beaucoup ont choisi d'être transférés à d'autres conférences et ont finalement été acceptés. Par conséquent, les internautes ont suggéré que Mamba passe au COLM, qui a été créé par de jeunes universitaires tels que Chen Danqi. COLM est un lieu universitaire dédié à la recherche sur la modélisation du langage, axé sur la compréhension, l'amélioration et les commentaires sur le développement de la technologie des modèles de langage, et peut constituer un meilleur choix pour des articles comme celui de Mamba.

Pourquoi lICLR na-t-elle pas accepté larticle de Mamba ? La communauté IA a déclenché une grande discussion

Cependant, que Mamba puisse éventuellement être accepté par l'ICLR, il est devenu une œuvre influente et a également donné à la communauté l'espoir de briser les chaînes de Transformer, en injectant une exploration au-delà du modèle Transformer traditionnel. .Nouvelle énergie.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!