La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Cet article présente un article de l'Université des sciences et technologies de Hong Kong (Guangzhou) sur le réglage fin efficace des grands modèles (LLM PEFT Réglage fin) L'article "Réglage fin efficace des paramètres avec transformation de Fourier discrète", Cet article a été accepté par ICML 2024 et le code est open source.
- Adresse papier : https://arxiv.org/abs/2405.03003
- Adresse du projet : https://github.com/Chaos96/fourierft
Les modèles de base à grande échelle ont réalisé des réalisations remarquables dans les domaines du traitement du langage naturel (NLP) et de la vision par ordinateur (CV). La mise au point de modèles de base à grande échelle pour les rendre plus adaptés à des tâches spéciales en aval est devenue un sujet de recherche populaire. Cependant, à mesure que les modèles deviennent de plus en plus grands et que les tâches en aval deviennent de plus en plus diversifiées, la consommation de calcul et de stockage provoquée par le réglage fin de l'ensemble du modèle n'est plus acceptable. LoRA adopte un schéma d'incrément de réglage fin des ajustements de bas rang et réduit avec succès une grande partie de cette consommation, mais la taille de chaque adaptateur (adaptateur) n'est toujours pas négligeable. Cela motive la question centrale de cet article : Par rapport à LoRA, comment réduire encore considérablement les paramètres entraînables ? De plus, une question supplémentaire intéressante est de savoir si une matrice incrémentale de haut rang peut être obtenue avec moins de paramètres. La base de Fourier est largement utilisée dans diverses applications de compression de données, telles que la compression de signaux vectoriels unidimensionnels et d'images bidimensionnelles. Dans ces applications, les signaux du domaine spatial dense sont convertis en signaux du domaine fréquentiel clairsemé via la transformée de Fourier. Sur la base de ce principe, l'auteur suppose que l'incrément du poids du modèle peut également être considéré comme un signal dans le domaine spatial et que son signal dans le domaine fréquentiel correspondant peut être réalisé via une représentation clairsemée. Sur la base de cette hypothèse, les auteurs proposent une nouvelle méthode d'apprentissage des signaux de poids incrémentiels dans le domaine fréquentiel. Plus précisément, cette méthode représente les incréments de poids du domaine spatial via des signaux du domaine fréquentiel clairsemés à des emplacements aléatoires. Lors du chargement du modèle pré-entraîné, n points sont d'abord sélectionnés au hasard en tant que signaux valides dans le domaine fréquentiel, puis ces signaux sont fusionnés en un vecteur unidimensionnel. Pendant le processus de propagation vers l'avant, ce vecteur unidimensionnel est utilisé pour restaurer la matrice spatiale via la transformée de Fourier ; pendant le processus de propagation arrière, en raison de la différentiabilité de la transformée de Fourier, ce vecteur apprenable peut être mis à jour directement. Cette méthode réduit non seulement efficacement le nombre de paramètres requis pour le réglage fin du modèle, mais garantit également les performances de réglage fin. De cette manière, les auteurs parviennent non seulement à affiner efficacement les modèles de base à grande échelle, mais démontrent également la valeur d’application potentielle de la transformée de Fourier dans le domaine de l’apprentissage automatique.
Grâce au contenu informatif élevé de la base de transformée de Fourier, seule une petite valeur n est nécessaire pour atteindre des performances comparables ou même supérieures à LoRA. En général, les paramètres entraînables du réglage fin de Fourier ne représentent qu'un millième à un dixième de ceux de LoRA. 1. Compréhension du langage naturelLes auteurs ont évalué la méthode de réglage fin de Fourier sur le benchmark GLUE pour la compréhension du langage naturel. Les méthodes de comparaison de base incluent Full Finetuning (FF), Bitfit, Adapter Tuning, LoRA, DyLoRA et AdaLoRA. Le tableau suivant montre les performances de diverses méthodes sur diverses tâches GLUE et la quantité de paramètres de formation requis. Les résultats montrent que le réglage fin de Fourier atteint, voire dépasse, les performances des autres méthodes de réglage fin avec le plus petit nombre de paramètres.
2. Ajustement de l'enseignement du langage naturelLa génération en langage naturel de grands modèles est actuellement un domaine d'application important pour l'ajustement des modèles. Les auteurs évaluent les performances du réglage fin de Fourier sur la famille de modèles LLaMA, la tâche MT-Bench et la tâche Vicuna. Les résultats montrent que le réglage fin de Fourier produit des effets similaires à ceux de LoRA avec une très faible quantité de paramètres d'entraînement, vérifiant ainsi la polyvalence et l'efficacité de la méthode de réglage fin de Fourier.
3. Classification d'images L'auteur a testé les performances du réglage fin de Fourier sur Vision Transformer, couvrant 8 ensembles de données de classification d'images courants. Les résultats expérimentaux montrent que bien que l'amélioration du taux de compression du réglage fin de Fourier par rapport à LoRA dans les tâches de classification d'images ne soit pas plus significative que celle des tâches en langage naturel, elle surpasse toujours l'effet de LoRA avec un nombre de paramètres beaucoup plus petit que LoRA. Cela démontre une fois de plus l’efficacité et les avantages du réglage fin de Fourier dans différents domaines d’application.
Sur l'ensemble de données RTE du benchmark GLUE, FourierFT peut atteindre des rangs nettement plus élevés que LoRA (généralement 4 ou 8) par incréments.
5. Consommation des ressources GPUPendant le processus de réglage fin, FourierFT peut atteindre une consommation de GPU inférieure à celle de LoRA. La figure ci-dessous montre la consommation maximale de mémoire sur le modèle RoBERTa-Large utilisant une seule carte graphique 4090.
L'auteur a présenté une méthode de réglage fin efficace appelée réglage fin de Fourier, qui utilise la transformée de Fourier pour réduire le nombre de paramètres pouvant être entraînés lors du réglage fin d'un grand modèle de base. Cette méthode réduit considérablement les besoins de stockage et de calcul en apprenant un petit nombre de coefficients du spectre de Fourier pour représenter les changements de poids. Les résultats expérimentaux montrent que le réglage fin de Fourier fonctionne bien sur des tâches telles que la compréhension du langage naturel, la génération du langage naturel, le réglage des instructions et la classification d'images. Par rapport aux méthodes d'adaptation de bas rang existantes (telles que LoRA), le réglage fin de Fourier maintient ou dépasse. les performances de LoRA Dans le même temps, les paramètres entraînables requis sont considérablement réduits. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!