L'éclat de SGD apporte l'importance de l'apprentissage profond-IA-php.cn

SGD 的光辉，带来深度学习的意义

Produit par Big Data Digest

En juillet, Naomi Saphra, boursière postdoctorale de l'Université de New York (NYU), a écrit un article intitulé "Interprétabilité créationnisme", expliquant la relation entre la descente de gradient stochastique (SGD) et l'apprentissage profond dans une perspective évolutive. . relation, et la perspective d’interprétation suscite la réflexion.

Par exemple : "Tout comme le coccyx humain, certains phénomènes peuvent avoir perdu leur rôle d'origine au cours du processus de formation du modèle et devenir semblables à des organes dégénérés."

"Qu'il s'agisse d'étudier le comportement parasitaire des poussins ou les réseaux neuronaux. Performance interne , si vous ne considérez pas comment le système évolue, il sera difficile de distinguer ce qui constitue une information précieuse. »

Ce qui suit est le texte original, qui a été compilé sans changer le sens original.

SGD 的光辉，带来深度学习的意义

Il y a des siècles, les Européens considéraient la présence d'œufs de coucou dans les nids comme un honneur pour les oiseaux nicheurs. Car l'oiseau nicheur nourrit avec enthousiasme ses « saints invités » avec encore plus de diligence que ses propres poussins (expulsés), un comportement conforme à l'esprit d'hospitalité chrétienne.

En 1859, Charles Darwin remet en question la notion optimiste et coopérative du comportement des oiseaux en étudiant le pinson, un autre pinson occasionnellement parasite.

SGD 的光辉，带来深度学习的意义

Sans considérer le rôle du coucou dans une perspective évolutive, il est difficile de se rendre compte que l'oiseau nicheur n'est pas un généreux propriétaire des poussins du coucou, mais une malheureuse victime.

Comme l'a dit le biologiste évolutionniste Theodosius Dobzhansky : « Sans la lumière de l'évolution, rien en biologie n'est compréhensible.

Bien que la descente de gradient stochastique ne soit pas une véritable forme d'évolution biologique, l'analyse post hoc en apprentissage automatique présente de nombreuses similitudes. » la méthode scientifique en biologie, qui nécessite souvent de comprendre l'origine du comportement d'un modèle.

Que l'on étudie le comportement des poussins parasites ou les performances internes des réseaux de neurones, il est difficile de distinguer ce qui constitue une information précieuse sans considérer la manière dont le système se développe.

Par conséquent, lors de l'analyse d'un modèle, il est important de prêter attention non seulement à l'état en fin de formation, mais également aux multiples points de contrôle intermédiaires au cours de la formation. De telles expériences sont peu coûteuses mais peuvent conduire à des résultats significatifs qui aident à mieux comprendre et expliquer le comportement du modèle.

Juste la bonne histoire

Les humains sont des penseurs causals et aiment rechercher des relations causales entre les choses, même s'il peut y avoir un manque de base scientifique.

Dans le domaine de la PNL, les chercheurs ont également tendance à fournir une explication causale explicable du comportement observé, mais cette explication peut ne pas vraiment révéler le fonctionnement interne du modèle. Par exemple, on pourrait prêter une attention particulière aux artefacts d’interprétabilité tels que les distributions d’attention syntaxique ou les neurones sélectifs, mais en réalité, nous ne pouvons pas être certains que le modèle utilise réellement ces modèles comportementaux.

Pour résoudre ce problème, la modélisation causale peut aider. Lorsque nous essayons d'intervenir (modifier ou manipuler) certaines caractéristiques et modèles d'un modèle pour tester leur impact sur le comportement du modèle, cette intervention peut cibler uniquement certains types de comportement évidents et spécifiques. En d’autres termes, lorsque nous essayons de comprendre comment un modèle utilise des caractéristiques et des modèles spécifiques, nous pouvons uniquement observer certains de ces comportements et ignorer d’autres comportements potentiels, moins évidents.

Ainsi, en pratique, nous ne pouvons effectuer que certains types d'interventions mineures sur des unités spécifiques de la représentation, sans parvenir à refléter correctement les interactions entre les entités.

Lorsque nous essayons d'intervenir (modifier ou manipuler) certaines caractéristiques et modèles du modèle pour tester leur impact sur le comportement du modèle, nous pouvons introduire des changements de distribution. Des changements de distribution importants peuvent conduire à un comportement erratique, alors pourquoi ne conduiraient-ils pas à de faux artefacts d’interprétabilité ?

Note du traducteur : le décalage de distribution fait référence à la différence entre les règles statistiques établies par le modèle sur les données d'entraînement et les données après intervention. Cette différence peut empêcher le modèle de s'adapter à la nouvelle distribution de données et ainsi présenter un comportement erratique.

Heureusement, les méthodes d'étude de l'évolution biologique peuvent nous aider à comprendre certains des phénomènes produits dans le modèle. Tout comme le coccyx humain, certains phénomènes peuvent avoir perdu leur rôle d'origine au cours du processus de formation du modèle et se transformer en quelque chose de similaire à un organe vestigial. Certains phénomènes peuvent être interdépendants, par exemple l’émergence de certaines caractéristiques au début de l’entraînement peut affecter le développement ultérieur d’autres caractéristiques, tout comme les animaux ont besoin de capacités de base de détection de la lumière avant de développer des yeux complexes.

Certains phénomènes peuvent également être dus à une compétition entre caractéristiques. Par exemple, les animaux dotés de fortes capacités odorantes peuvent ne pas s'appuyer beaucoup sur la vision, leurs capacités visuelles peuvent donc être affaiblies. De plus, certains phénomènes peuvent n’être que des effets secondaires du processus d’entraînement, semblables à l’ADN indésirable de notre génome. Ils occupent une grande partie du génome mais n’affectent pas directement notre apparence et notre fonctionnement.

Pendant le processus d'entraînement du modèle, certains phénomènes inutilisés peuvent apparaître, et nous avons de nombreuses théories pour expliquer ce phénomène. Par exemple, l’hypothèse du goulot d’étranglement des informations prédit qu’au début de la formation, les informations d’entrée seront mémorisées puis compressées dans le modèle, ne conservant que les informations pertinentes pour la sortie. Ces premières mémoires ne sont pas toujours utiles lors du traitement de données invisibles, mais elles sont très importantes pour éventuellement apprendre une représentation de sortie spécifique.

Nous pouvons également envisager la possibilité de caractéristiques dégénérées, car les comportements précoces et tardifs du modèle entraîné sont très différents. Les premiers modèles étaient plus simples. En prenant les modèles de langage comme exemple, les premiers modèles sont similaires aux modèles n-grammes simples, tandis que les modèles ultérieurs peuvent exprimer des modèles de langage plus complexes. Ce mélange dans le processus de formation peut avoir des effets secondaires qui peuvent facilement être confondus avec un élément essentiel de la formation du modèle.

Perspective évolutive

Il est très difficile de comprendre la tendance à l'apprentissage d'un modèle basé uniquement sur les fonctionnalités après l'entraînement. Selon les travaux de Lovering et al., observer la facilité d'extraction des fonctionnalités au début de la formation et analyser les données de réglage fin a un impact beaucoup plus profond sur la compréhension des performances de réglage fin que la simple analyse à la fin de la formation.

Le comportement en couches du langage est une explication typique basée sur des modèles statiques analytiques. Il a été avancé que les mots proches les uns des autres dans la structure de la phrase seront représentés plus près dans le modèle, tandis que les mots structurellement plus éloignés seront représentés plus éloignés. Alors, comment savons-nous que le modèle regroupe les mots en fonction de leur proximité dans la structure des phrases ?

En fait, nous pouvons affirmer avec plus de certitude que certains modèles de langage sont hiérarchiques car les premiers modèles codent davantage d'informations locales dans des réseaux de mémoire à long terme (LSTM) et des transformateurs, et lorsque ces dépendances peuvent être superposées à des composants courts familiers, elles apprendre plus facilement les dépendances plus éloignées.

Un cas concret a été rencontré en traitant du problème du créationnisme interprétatif. Lors de la formation plusieurs fois d’un classificateur de texte en utilisant différentes graines aléatoires, on peut observer que le modèle est distribué dans plusieurs clusters différents. Il a également été constaté que le comportement de généralisation d'un modèle peut être prédit en observant dans quelle mesure le modèle se connecte à d'autres modèles sur la surface de perte. En d’autres termes, selon l’endroit où la perte apparaît en surface, les performances de généralisation du modèle peuvent varier. Ce phénomène peut être lié aux graines aléatoires utilisées lors de l'entraînement.

Mais peut-on vraiment le dire ? Et si un cluster correspondait effectivement à une étape précoce du modèle ? Si un cluster ne représente en réalité qu'une première étape du modèle, ces modèles peuvent éventuellement passer à un cluster offrant de meilleures performances de généralisation. Par conséquent, dans ce cas, les phénomènes observés indiquent simplement que certains processus de réglage fin sont plus lents que d’autres.

Doit montrer que les trajectoires d'entraînement peuvent tomber dans un bassin sur la surface de perte, expliquant ainsi la diversité des comportements de généralisation dans les modèles entraînés. En fait, après avoir examiné plusieurs points de contrôle lors de la formation, il a été constaté qu'un modèle au centre d'un cluster développe des connexions plus fortes avec d'autres modèles de son cluster pendant la formation. Cependant, certains modèles parviennent toujours à passer avec succès à un meilleur cluster.

SGD 的光辉，带来深度学习的意义

Une suggestion

Pour répondre à la question de recherche, il ne suffit pas d'observer le processus de formation. Dans la recherche de relations causales, une intervention est nécessaire. Prenons par exemple l’étude de la résistance aux antibiotiques en biologie. Les chercheurs doivent délibérément exposer les bactéries aux antibiotiques et ne peuvent pas s’appuyer sur des expériences naturelles. Par conséquent, les déclarations basées sur des observations de la dynamique de formation nécessitent une confirmation expérimentale.

Toutes les déclarations ne nécessitent pas l'observation du processus de formation. Aux yeux des anciens humains, de nombreux organes avaient des fonctions évidentes, comme les yeux pour voir et le cœur pour pomper le sang. Dans le domaine du traitement du langage naturel (NLP), en analysant des modèles statiques, nous pouvons faire des interprétations simples, comme par exemple que des neurones spécifiques se déclenchent en présence d'attributs spécifiques, ou que certains types d'informations sont toujours disponibles dans le modèle.

Cependant, les observations du processus de formation peuvent encore clarifier le sens de nombreuses observations réalisées dans des modèles statiques. Cela signifie que, même si tous les problèmes ne nécessitent pas l'observation du processus de formation, dans de nombreux cas, il est utile de comprendre le processus de formation pour comprendre les observations.

Le conseil est simple : lorsque vous étudiez et analysez un modèle entraîné, ne vous concentrez pas uniquement sur les résultats finaux pendant le processus d'entraînement. Au lieu de cela, l'analyse doit être appliquée à plusieurs points de contrôle intermédiaires pendant la formation ; lors du réglage fin du modèle, vérifiez plusieurs points au début et à la fin de la formation. Il est important d'observer les changements dans le comportement du modèle pendant la formation, ce qui peut aider les chercheurs à mieux comprendre si la stratégie du modèle est raisonnable et à évaluer la stratégie du modèle après avoir observé ce qui se passe au début de la formation.

Lien de référence : https://thegradient.pub/interpretability-creationism/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!