Avec le grand succès des grands modèles représentés par GPT ces dernières années, le paradigme d'apprentissage automatique du réseau neuronal profond + SGD + mise à l'échelle a une fois de plus prouvé sa domination dans le domaine du statut de l'IA . Pourquoi les paradigmes basés sur les réseaux de neurones profonds réussissent-ils ? L’opinion la plus répandue est que les réseaux de neurones ont la capacité d’apprendre automatiquement des caractéristiques abstraites et généralisables à partir de données d’entrée massives de haute dimension. Malheureusement, limitée par les lacunes des méthodes d'analyse et des outils mathématiques actuels, notre compréhension actuelle de « comment les réseaux de neurones (profonds) mettent en œuvre un tel processus d'apprentissage de fonctionnalités » n'est pas encore très approfondie. Pour cette raison, la plupart des recherches pertinentes actuelles dans la communauté universitaire se limitent encore à « expliquer » les caractéristiques que le modèle a apprises, et il est difficile d'obtenir des modèles plus efficaces en matière de données et plus généralisables par « l'intervention » dans son processus d’apprentissage. Lorsque nous discutons du processus d'apprentissage des fonctionnalités des réseaux de neurones, l'une des questions les plus fondamentales est la suivante : quelles fonctionnalités le réseau de neurones apprendra-t-il à partir des données d'entrée ? Du point de vue des objectifs, l'apprentissage des fonctionnalités des réseaux de neurones est un « sous-produit » piloté par les tâches, et son objectif est de minimiser les erreurs de formation. Par conséquent, nous penserions intuitivement que le réseau neuronal devrait extraire des données les fonctionnalités « pertinentes pour la tâche », tandis que les fonctionnalités restantes « non pertinentes pour la tâche » sont équivalentes au bruit des données. Ensuite, parce que les réseaux de neurones ont la caractéristique de « ne pas apprendre sauf si nécessaire » (plus précisément, le biais de simplicité), les réseaux de neurones devraient avoir tendance à ne pas les apprendre. C’est également une vision courante dans la littérature actuelle.
Cependant, dans nos récents travaux acceptés par l'ICML 2024, nous avons constaté que cette perception intuitive est en réalité
fausse! Plus précisément, nous avons constaté que lorsque les réseaux neuronaux non linéaires apprennent des fonctionnalités liées à une tâche, ils ont également tendance à apprendre des fonctionnalités non pertinentespour la tâche (nous l'appelons "pollution des caractéristiques"), et cette tendance conduira à des problèmes neuronaux. réseau à généraliser aux scénarios avec décalage de distribution. Théoriquement, nous avons prouvé que la contamination des caractéristiques se produit même dans un simple réseau ReLU à deux couches et est étroitement liée à l'asymétrie de catégorie de activation des neurones dans les réseaux neuronaux. Nous avons également donné une série de preuves que la contamination des caractéristiques existe également en profondeur ; réseaux tels que ResNet et Vision Transformer, et nuira à leur généralisation. Il convient de mentionner que le mode de défaillance que nous avons découvert est complètement orthogonal à l'analyse dominante basée sur de fausses corrélations dans la littérature actuelle de généralisation hors distribution (OOD). Par conséquent, dans une perspective plus large, nos résultats démontrent l'importance du biais inductif du réseau neuronal lui-même pour la généralisation de l'OOD. Ils montrent également que bon nombre de nos études sur l'apprentissage et la généralisation des caractéristiques des réseaux neuronaux ont peut-être également besoin d'être repensées.
Ensuite, présentons le contenu spécifique de l'article :
Contexte de rechercheLa capacité de généralisation dans les scénarios où la distribution des données change (c'est-à-dire la capacité de généralisation OOD) est une mesure de la capacité d'un système d'apprentissage automatique à fonctionner dans réalité L'un des indicateurs clés du déploiement dans l'environnement. Cependant, les réseaux de neurones actuels subissent souvent des pertes de performances significatives dans les scénarios de généralisation OOD. Concernant la raison pour laquelle la généralisation OOD échoue, l'affirmation la plus courante dans la littérature est que de fausses corrélations existent dans la représentation, c'est-à-dire que le modèle apprendra des caractéristiques liées à l'objectif de la tâche mais n'ont aucune relation causale. Par conséquent, lorsque la corrélation entre ces caractéristiques et les objectifs des tâches change en raison de changements de distribution, les modèles qui s'appuient sur ces caractéristiques pour la prédiction ne peuvent pas garantir les performances d'origine.
L'explication théorique ci-dessus est assez intuitive et naturelle, et est également devenue l'axe principal guidant la recherche sur les algorithmes OOD ces dernières années, c'est-à-dire qu'en concevant de meilleures fonctions objectives d'optimisation et des termes réguliers, le modèle peut apprendre de meilleures représentations sans fausses corrélations. Afin d'obtenir des performances de généralisation plus fortes. Ces dernières années, de nombreux travaux ont été réalisés dans ce sens pour tenter d’améliorer la généralisation OOD du modèle grâce à la conception d’algorithmes. Cependant, des travaux récents montrent que de nombreux algorithmes dotés de garanties théoriques intégrées ont une amélioration très limitée des performances sur les tâches de généralisation OOD basées sur des données réelles. Pourquoi cela arrive-t-il ? Nous pensons que les difficultés actuelles de la recherche sur la généralisation de l'OOD peuvent provenir de
deux limitationsde l'analyse existante :
En d’autres termes, les explications actuelles et les modèles théoriques de généralisation de l’OOD peuvent ne pas refléter avec précision les scénarios réels de changement de distribution. Par conséquent, nous pensons qu’il est très nécessaire de prendre en compte le biais inductif des réseaux de neurones et du SGD pour comprendre la généralisation de l’OOD basée sur les réseaux de neurones profonds.
Expérience
Tout d'abord, nous essayons d'estimer la « limite supérieure de performance » qui peut être atteinte par l'algorithme de généralisation OOD actuel conçu sur la base d'objectifs d'apprentissage de la représentation grâce à la conception expérimentale. Sous la direction d'une fausse théorie de corrélation, les travaux existants tentent principalement de contraindre le modèle à apprendre des représentations qui peuvent être généralisées par OOD en concevant des fonctions objectives d'apprentissage de représentations auxiliaires. Afin d'étudier si l'optimisation d'un tel objectif peut réellement extraire la représentation souhaitée, nous avons conçu un scénario idéalisé :
Les résultats expérimentaux sont présentés dans l'image ci-dessus. De la figure, nous tirons deux conclusions principales :
Nous nous demandons donc naturellement : puisque nous avons directement ajusté la représentation du modèle de l'enseignant, d'où vient l'écart de généralisation entre le modèle de l'élève et le modèle de l'enseignant ? Nous avons constaté qu'il est difficile d'expliquer directement ce phénomène expérimental avec les explications théoriques existantes :
En bref, nous pensons que l'analyse existante est insuffisante pour expliquer l'écart dans la capacité de généralisation de l'OOD que nous avons réellement observé dans nos expériences. Dans le même temps, puisque « les représentations directement adaptées qui peuvent être généralisées par OOD » ne peuvent pas garantir un modèle qui peut être généralisé par OOD, alors nous devons considérer le « processus » d'apprentissage des représentations en plus du « objectif ». de l'apprentissage des représentations. ", qui est le biais inductif provoqué par la dynamique d'apprentissage des fonctionnalités des réseaux de neurones. Bien qu'il soit très difficile d'analyser directement le processus d'apprentissage des fonctionnalités des réseaux de neurones profonds en théorie, nous avons constaté que même un réseau ReLU à deux couches montrera une tendance intéressante à l'apprentissage des fonctionnalités, c'est-à-dire une « pollution des fonctionnalités », et cette tendance est également directement lié à la généralisation OOD des réseaux de neurones.
Théorie
Dans cette section, nous prouvons l'existence du phénomène de "pollution de caractéristiques" sur un problème de classification binaire basé sur un réseau ReLU à deux couches, et analysons la source de ce phénomène. Plus précisément, nous supposons que l'entrée dans le réseau consiste en une combinaison linéaire de deux fonctionnalités : les « fonctionnalités de base » et les « fonctionnalités d'arrière-plan ». Parmi elles, la distribution des caractéristiques de base dépend de l'étiquette de catégorie (peut être visualisée comme l'objet à classer dans le problème de classification d'images), tandis que la distribution des caractéristiques d'arrière-plan n'a rien à voir avec l'étiquette (peut être visualisée comme l'objet à classer dans le problème de classification d'image). fond d’image et autres éléments du problème de classification d’images). Afin d'éliminer l'interférence d'autres facteurs, nous faisons également les hypothèses suivantes sur ces deux types de caractéristiques :
Nous avons constaté que même dans les conditions ci-dessus, le réseau neuronal apprendra toujours des fonctionnalités d'arrière-plan qui ne sont absolument pas pertinentes pour la tâche tout en apprenant les fonctionnalités de base. En raison du couplage de ces deux caractéristiques dans l'espace de pondération du réseau, le changement de distribution dans les caractéristiques d'arrière-plan entraînera également une augmentation de l'erreur du réseau neuronal, réduisant ainsi la généralisation OOD du réseau. Par conséquent, nous appelons cette préférence d’apprentissage des caractéristiques des réseaux de neurones « pollution des caractéristiques ». Ci-dessous, nous présentons en détail les causes de la pollution des fonctionnalités. Le diagramme schématique de l'idée globale de l'analyse est le suivant :
Le point clé de notre analyse est que la pollution des caractéristiques est en fait liée au fait que les neurones des réseaux neuronaux ont souvent une activation asymétrique (activation asymétrique) pour différentes catégories. Plus précisément, nous pouvons montrer qu'après suffisamment d'itérations SGD, au moins une partie significative des neurones du réseau aura tendance à être corrélée positivement avec des échantillons d'une catégorie (nous les appelons échantillons positifs de ce neurone, et utilisons ypos représente sa catégorie), tout en conservant une corrélation négative avec l'échantillon d'une autre catégorie (on l'appelle l'échantillon négatif de ce neurone, et yneg représente sa catégorie). Cela conduira à une asymétrie de catégorie dans l'activation de ces neurones, comme le montre le théorème 4.1 :
Comment une telle asymétrie de catégorie affecte-t-elle le processus d'apprentissage des caractéristiques du réseau neuronal ? Nous remarquons d'abord que pour le k-ième neurone dans la couche cachée du réseau, son vecteur de poids wk peut être scindé après la t-ième itération :
Dans la formule ci-dessus, Score et S bg représente respectivement l'ensemble des fonctionnalités principales et des fonctionnalités d'arrière-plan, où chaque mj correspond à une fonctionnalité principale ou une fonctionnalité d'arrière-plan. À partir de cette formule, nous pouvons voir que le poids d'un neurone peut être décomposé en ses projections sur différentes caractéristiques (nous supposons ici que différents mj sont des vecteurs unitaires orthogonaux). De plus, nous pouvons prouver que la projection du gradient négatif de wk sur chaque élément d'arrière-plan mj, j appartient à Sbg satisfait :
Pour les neurones de catégorie d'activation asymétrique, selon le théorème 4.1, on constate que son gradient dépend principalement de l'échantillon positif y=ypos du neurone et n'a presque rien à voir avec l'échantillon négatif y=yneg. Cela a pour conséquence que les caractéristiques principales et les caractéristiques d'arrière-plan existant dans les échantillons positifs obtiennent en même temps des projections de gradient positif, et ce processus n'a rien à voir avec la corrélation entre les caractéristiques et les étiquettes. Comme le montre le théorème 4.2, nous prouvons qu'après suffisamment d'itérations SGD, l'accumulation de la projection de gradient ci-dessus fera que les caractéristiques apprises par le neurone contiendront à la fois des caractéristiques de base et des caractéristiques d'arrière-plan couplées :
En raison du couplage des caractéristiques de base et des caractéristiques d'arrière-plan dans les poids des neurones, le changement de distribution négatif des caractéristiques d'arrière-plan réduira l'activation des neurones, entraînant des erreurs OOD supplémentaires. Comme le montre le théorème 4.3, nous décrivons quantitativement l'impact de la pollution de caractéristiques sur le risque de généralisation de ID et OOD :
En même temps, afin d'illustrer davantage la relation entre la pollution de caractéristiques provenant des fonctions d'activation non linéaires de réseaux de neurones, nous le prouvons Après avoir supprimé la non-linéarité du réseau de neurones, la pollution des caractéristiques ne se produira plus :
Comme le montre la figure ci-dessous, nous avons vérifié nos résultats théoriques par des expériences numériques. Dans le même temps, en plus du réseau ReLU à deux couches + SGD, nous avons également étendu nos conclusions à des paramètres plus généraux, notamment d'autres types de fonctions d'activation, des optimiseurs avec des tailles de pas adaptatives, etc. Les résultats sont présentés dans la figure 3 ( d) ), indiquant que la contamination des fonctionnalités est également répandue dans des contextes plus généraux.
Dans le même temps, nous fournissons également davantage de preuves expérimentales et de visualisation de fonctionnalités pour montrer que dans les réseaux profonds tels que ResNet et Vision Transformer que nous utilisons quotidiennement, le phénomène de pollution des fonctionnalités se produit également et peut expliquer le observations dans nos expériences L'écart de généralisation OOD a été atteint. Toute personne intéressée par cette partie peut se référer au chapitre 5 de notre article original.
Résumé et discussion
Enfin, nous énumérons quelques points de recherche qui pourraient être plus importants à l'avenir/peuvent être poursuivis en profondeur. Nous invitons également tous ceux qui souhaitent communiquer davantage avec nous :À propos de l'auteur | L'auteur de cet article, Zhang Tianren, est doctorant au Département d'automatisation de l'Université Tsinghua. Il est titulaire d'un baccalauréat au Département d'automatisation de l'Université Tsinghua. Feng. Au cours de son doctorat, l'auteur a principalement mené des recherches théoriques et algorithmiques autour des questions d'apprentissage des représentations et de généralisation dans l'apprentissage automatique. Il a publié de nombreux articles dans les principales conférences et revues sur l'apprentissage automatique, telles que ICML, NeurIPS, ICLR, IEEE TPAMI, etc.
Affiliation de l'auteur | VIPLAB de l'Université Tsinghua
E-mail de contact | . , Bethge, M. et Brendel, W. Les performances de généralisation de CLIP proviennent-elles principalement d'une similarité élevée entre les tests de train et la Conférence internationale sur les représentations d'apprentissage, 2024.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!