Comment les réseaux résiduels profonds surmontent-ils le problème du gradient de disparition ?-IA-php.cn

Comment les réseaux résiduels profonds surmontent-ils le problème du gradient de disparition ?

王林

Libérer： 2024-01-22 20:03:20

avant

1407 Les gens l'ont consulté

Comment les réseaux résiduels profonds surmontent-ils le problème du gradient de disparition ?

Le réseau résiduel est un modèle d'apprentissage profond populaire qui résout le problème du gradient de disparition en introduisant des blocs résiduels. Cet article part de la cause essentielle du problème du gradient de disparition et explique en détail la solution au réseau résiduel.

1. La raison essentielle du problème du gradient de disparition

Dans un réseau neuronal profond, la sortie de chaque couche est calculée en multipliant l'entrée de la couche précédente avec la matrice de poids et en la calculant via la fonction d'activation . À mesure que le nombre de couches réseau augmente, la sortie de chaque couche sera affectée par la sortie des couches précédentes. Cela signifie que même de petits changements dans la matrice de pondération et la fonction d’activation auront un impact sur la production de l’ensemble du réseau. Dans l'algorithme de rétropropagation, les gradients sont utilisés pour mettre à jour les poids du réseau. Le calcul du dégradé nécessite de transmettre le dégradé du calque suivant au calque précédent via la règle de chaîne. Par conséquent, les dégradés des couches précédentes affecteront également le calcul des dégradés. Cet effet s'accumule à mesure que les poids sont mis à jour et propagés dans tout le réseau pendant la formation. Par conséquent, chaque couche d’un réseau neuronal profond est interconnectée et leurs sorties et gradients s’influencent mutuellement. Cela nous oblige à examiner attentivement la sélection des poids et des fonctions d'activation de chaque couche, ainsi que les méthodes de calcul et de transmission des gradients lors de la conception et de la formation du réseau, afin de garantir que le réseau puisse apprendre et s'adapter efficacement aux différentes tâches et données.

Dans les réseaux de neurones profonds, lorsqu'il existe de nombreuses couches de réseau, les gradients « disparaissent » ou « explosent » souvent. La raison pour laquelle le gradient disparaît est que lorsque la dérivée de la fonction d'activation est inférieure à 1, le gradient diminuera progressivement, ce qui rendra le gradient de la couche précédente plus petit et finira par ne plus pouvoir être mis à jour, ce qui empêchera le réseau de se mettre à jour. apprendre. La raison de l'explosion du gradient est que lorsque la dérivée de la fonction d'activation est supérieure à 1, le gradient augmente progressivement, ce qui entraîne un élargissement du gradient des couches ultérieures, provoquant finalement un débordement du poids du réseau et provoquant également une explosion du réseau. être incapable d'apprendre.

2. Solution du réseau résiduel

Le réseau résiduel résout le problème de la disparition du gradient en introduisant des blocs résiduels. Entre chaque couche réseau, le bloc résiduel ajoute l'entrée directement à la sortie, facilitant ainsi l'apprentissage du mappage d'identité par le réseau. Cette conception de connexion entre couches permet aux gradients de mieux se propager et atténue efficacement le phénomène de disparition des gradients. Une telle solution peut améliorer l’efficacité de la formation et les performances du réseau.

Plus précisément, la structure x du bloc résiduel représente l'entrée, F(x) représente le mappage obtenu par apprentissage en réseau, et H(x) représente le mappage d'identité. La sortie du bloc résiduel est H(x)+F(x), qui est l'entrée plus le mappage appris.

L'avantage est que lorsque le réseau apprend un mappage d'identité, F(x) vaut 0 et la sortie du bloc résiduel est égale à l'entrée, c'est-à-dire H(x)+0=H( X ). Cela évite le problème du gradient de disparition car même si le gradient de F(x) est égal à 0, le gradient de H(x) peut toujours être transmis à la couche précédente via la connexion entre couches, obtenant ainsi un meilleur flux de gradient.

De plus, le réseau résiduel utilise également des technologies telles que la « normalisation par lots » et la « pré-activation » pour améliorer encore les performances et la stabilité du réseau. Parmi eux, la normalisation par lots est utilisée pour résoudre les problèmes de disparition et d'explosion de gradient, tandis que la pré-activation peut mieux introduire la non-linéarité et améliorer la capacité d'expression du réseau.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!