Présentation de RWKV : l'essor des transformateurs linéaires et l'exploration d'alternatives

WBOY
Libérer: 2023-09-27 14:01:27
avant
2589 Les gens l'ont consulté

Voici un résumé de certaines de mes réflexions sur le podcast RWKV//m.sbmmt.com/link/9bde76f262285bb1eaeb7b40c758b53e

Présentation de RWKV : lessor des transformateurs linéaires et lexploration dalternatives


Pourquoi l’importance des alternatives est-elle si importante ?

Avec la révolution de l'intelligence artificielle en 2023, l'architectureTransformerest actuellement à son apogée. Cependant, dans la précipitation pour adopter l’architecture à succèsTransformer, il est facile de négliger les alternatives dont on peut tirer des leçons.

En tant qu'ingénieurs, nous ne devrions pas adopter une approche universelle et utiliser la même solution à chaque problème. Nous devrions peser le pour et le contre dans chaque situation ; sinon, être coincé dans les limites d'une plateforme particulière tout en nous sentant « satisfaits » de ne pas savoir qu'il existe des alternatives pourrait ramener le développement à la pré-libération du jour au lendemain

Ce problème est Ce n’est pas propre au domaine de l’intelligence artificielle, mais c’est un modèle historique qui s’est répété depuis l’Antiquité jusqu’à nos jours.


Une page de l'histoire de SQL Wars, une histoire sur la compétition et l'affrontement entre les systèmes de gestion de bases de données. Dans cette histoire, divers systèmes de gestion de bases de données, tels qu'Oracle, MySQL et SQL Server, se livrent une concurrence féroce pour obtenir des parts de marché et des avantages techniques. Ces compétitions ne se reflètent pas seulement dans les performances et les fonctionnalités, mais impliquent également de nombreux aspects tels que la stratégie commerciale, le marketing et la satisfaction des utilisateurs. Ces systèmes de gestion de bases de données introduisent constamment de nouvelles fonctionnalités et améliorations pour inciter davantage d'utilisateurs et d'entreprises à choisir leurs produits. Une page de l'histoire de la guerre SQL, qui a été témoin du développement et des changements de l'industrie des systèmes de gestion de bases de données, et nous a également fourni une expérience et des leçons précieuses

Un exemple remarquable dans le développement de logiciels récemment est celui où SQL La tendance NoSQL est apparue lorsque les serveurs ont commencé à être physiquement limités. Les startups du monde entier se tournent vers NoSQL pour des raisons « d'échelle », même si elles sont loin de ces échelles

Cependant, au fil du temps, à mesure que la cohérence éventuelle et les frais de gestion NoSQL apparaissent, et un énorme bond en avant dans les capacités matérielles en termes de Vitesse et capacité SSD, les serveurs SQL ont connu un retour en force récemment en raison de leur simplicité d'utilisation et désormais plus de 90 % des startups disposent d'une évolutivité suffisante

SQL et NoSQL sont deux technologies de bases de données différentes. SQL est l'abréviation de Structured Query Language, qui est principalement utilisé pour traiter des données structurées. NoSQL fait référence à une base de données non relationnelle, adaptée au traitement de données non structurées ou semi-structurées. Même si certaines personnes pensent que SQL est meilleur que NoSQL, ou vice versa, cela signifie en réalité que chaque technologie a ses propres avantages, inconvénients et cas d'utilisation. Dans certains cas, SQL peut être mieux adapté au traitement de données relationnelles complexes, tandis que NoSQL est mieux adapté au traitement de données non structurées à grande échelle. Toutefois, cela ne signifie pas qu’une seule technologie puisse être choisie. En fait, de nombreuses applications et systèmes utilisent dans la pratique des solutions hybrides de SQL et NoSQL. En fonction des besoins spécifiques et du type de données, la technologie la plus appropriée peut être sélectionnée pour résoudre le problème. Il est donc important de comprendre les caractéristiques et les scénarios applicables de chaque technologie et de faire un choix éclairé en fonction de la situation spécifique. Qu'il s'agisse de SQL ou de NoSQL, chacun a ses propres points d'apprentissage et ses cas d'utilisation préférés qui peuvent être tirés d'apprentissages et pollinisés de manière croisée entre des technologies similaires


Quels sont les plus gros problèmes du momentTransformateurarchitecture ?

Généralement, cela inclut les calculs, la taille du contexte, l'ensemble de données et l'alignement. Dans cette discussion, nous nous concentrerons sur la longueur du calcul et du contexte :

  • Le coût de calcul quadratique dû à l'augmentation de O(N^2) par jeton utilisé/généré. Cela rend les tailles de contexte supérieures à 100 000 très coûteuses, ce qui affecte l'inférence et la formation.
  • La pénurie actuelle de GPU exacerbe ce problème.
  • La taille du contexte limite le mécanisme Attention, limitant considérablement les cas d'utilisation des "agents intelligents" (comme smol-dev) et forçant une solution au problème. Les contextes plus vastes nécessitent moins de solutions de contournement.

Alors, comment résoudre ce problème ?


Présentation de RWKV : un Transformer/RNN moderne à grande échelle

RWKV et Microsoft RetNet sont appelés "Transformateurs linéaires" dans une nouvelle catégorie Le premier

qui répond directement aux trois limitations ci-dessus en prenant en charge :

  • Coût de calcul linéaire, indépendant de la taille du contexte.
  • Dans les processeurs (en particulier ARM), autorisez une sortie raisonnable de jetons/seconde en mode RNN avec des exigences inférieures.
  • Il n'y a pas de limite de taille de contexte stricte en tant que RNN. Toutes les limites indiquées dans la documentation sont des lignes directrices : vous pouvez les affiner.

Alors que nous continuons à faire évoluer les modèles d'IA jusqu'à des tailles de contexte de 100k et plus, le coût de calcul quadratique commence à croître de façon exponentielle.

Cependant, Linear Transformer n'a pas abandonné l'architecture récurrente du réseau neuronal et n'a pas résolu ses goulots d'étranglement, ce qui a obligé à les remplacer.

Cependant, le RNN repensé a appris les leçons évolutives de Transformer, permettant à RNN de fonctionner de la même manière que Transformer et éliminant ces goulots d'étranglement.

Ramenez-les en jeu avec les Transformers en termes de vitesse d'entraînement - leur permettant de fonctionner efficacement à un coût O(N) tout en s'adaptant à plus d'un milliard de paramètres d'entraînement tout en maintenant des niveaux de performances similaires.

Présentation de RWKV : lessor des transformateurs linéaires et lexploration dalternatives

Graphique : Coût de calcul du transformateur linéaire, mise à l'échelle linéaire par rapport à la croissance exponentielle du transformateur par jeton


Lorsque vous appliquez une mise à l'échelle carrée à une mise à l'échelle linéaire, vous obtenez Get 10x+ croissance à 2k nombre de jetons et croissance 100x+ à une longueur de jeton de 100 000

Avec des paramètres de 14B, RWKV est le plus grand transformateur linéaire open source, similaire à GPT NeoX et d'autres ensembles de données (tels que le Pile) sont comparables.


Présentation de RWKV : lessor des transformateurs linéaires et lexploration dalternatives

Les performances du modèle RWKV sont comparables à celles des modèles de transformateurs existants de taille similaire, montrent divers benchmarks


Mais en termes plus simples, cela signifie quoi ?


Avantages

  • L'inférence/la formation est 10 fois moins chère que Transformer dans des contextes plus grands
  • en RNN mode Bas, ok Fonctionne lentement sur un mode très limité matériel
  • Performances similaires à Transformer sur le même ensemble de données
  • RNN n'a pas de limite de taille de contexte technique (contexte illimité !)


Disad avantages

  • Problème de fenêtre coulissante, perte de mémoire au-delà d'un certain point
  • Pas prouvé pour évoluer au-delà des paramètres 14B
  • Pas aussi bon que l'optimisation et l'adoption du transformateur

Donc tandis que RWKV n'a pas encore atteint l'échelle de paramètres 60B+ de LLaMA2, avec le soutien et les ressources appropriés, il a le potentiel de le faire à moindre coût et dans un contexte plus large, d'autant plus que les modèles ont tendance à être plus petits, plus efficaces

Si votre le cas d'utilisation est important pour l'efficacité, considérez ceci. Cependant, ce n'est pas la solution finale - la clé réside dans des alternatives saines


Nous devrions envisager d'apprendre d'autres alternatives et leurs avantages

Modèle de diffusion : l'entraînement textuel est plus rapide Lent, mais extrêmement flexible pour une formation multi-époques. Découvrir pourquoi peut aider à atténuer la crise symbolique.

Réseaux/Agents Adversaires Génératifs : Des techniques peuvent être utilisées pour former l'ensemble de formation requis sur une cible spécifique, même s'il s'agit d'un modèle basé sur du texte sans ensemble de données.


Titre original :Présentation du RWKV : L'essor des transformateurs linéaires et exploration des alternatives, auteur :picocreator

https //m.sbmmt.com/ lien/b433da1b32b5ca96c0ba7fcb9edba97d

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!