신경망 최적화-파이썬 튜토리얼-php.cn

La semaine dernière, j'ai publié un article sur la façon de construire des réseaux de neurones simples, en particulier des perceptrons multicouches. Cet article approfondira les spécificités des réseaux de neurones pour expliquer comment nous pouvons maximiser les performances d'un réseau de neurones en modifiant ses configurations.

Combien de temps faut-il former votre modèle

Lors de la formation d'un modèle, vous pourriez penser que si vous entraînez suffisamment votre modèle, celui-ci deviendra parfait. Cela est peut-être vrai, mais cela ne vaut que pour l'ensemble de données sur lequel il a été formé. En fait, si vous lui fournissez un autre ensemble de données dont les valeurs sont différentes, le modèle pourrait produire des prédictions complètement incorrectes. Pour mieux comprendre cela, disons que vous vous entraînez chaque jour pour votre examen de conduite en conduisant en ligne droite sans bouger le volant. (S'il vous plaît, ne faites pas cela.) Bien que vous obteniez probablement de très bons résultats sur la piste d'accélération, si on vous demandait de tourner à gauche lors de l'examen lui-même, vous pourriez finir par vous transformer en panneau STOP à la place. Ce phénomène est appelé surapprentissage. Votre modèle peut apprendre tous les aspects et modèles des données sur lesquelles il est formé, mais s'il apprend un modèle qui adhère trop étroitement à l'ensemble de données d'entraînement, alors lorsqu'il reçoit un nouvel ensemble de données, votre modèle fonctionnera mal. Dans le même temps, si vous n’entraînez pas suffisamment votre modèle, celui-ci ne sera pas en mesure de reconnaître correctement les modèles d’autres ensembles de données. Dans ce cas, vous seriez sous-ajusté. Optimizing Your Neural Networks

Un exemple de surapprentissage. La perte de validation, représentée par la ligne orange augmente progressivement tandis que la perte d'entraînement, représentée par la ligne bleue, diminue.

Dans l'exemple ci-dessus, une excellente position pour arrêter l'entraînement de votre modèle serait la bonne lorsque la perte de validation atteint son minimum. Il est possible de le faire avec arrêt précoce, qui arrête l'entraînement une fois qu'il n'y a pas d'amélioration de la perte de validation après un nombre arbitraire de cycles d'entraînement (époques). L'entraînement de votre modèle consiste à trouver un équilibre entre le surajustement et le sous-ajustement tout en utilisant un arrêt précoce si nécessaire. C'est pourquoi votre ensemble de données d'entraînement doit être aussi représentatif que possible de votre population globale afin que votre modèle puisse faire des prédictions plus précises sur les données qu'il n'a pas vues.

Fonctions de perte

L'une des configurations d'entraînement les plus importantes pouvant être modifiées est peut-être la fonction de perte, qui est "l'inexactitude" entre les prédictions de votre modèle et leurs valeurs réelles. L'« imprécision » peut être représentée mathématiquement de nombreuses manières différentes, l'une des plus courantes étant l'erreur quadratique moyenne (MSE) :

MSE = \frac{\sum_{i = 1}^{n} (\overset{ˉ}{y_{나는}} - y_{나는})^{2}}{n} text{MSE} = frac{sum_{i=1}^n (바{y_i} - y_i)^2}{n}

wo $\overset{ˉ}{y_{i}} bar{y_i}$ ist die Vorhersage des Modells und $y_{i} y_i$ ist der wahre Wert. Es gibt eine ähnliche Variante namens mittlerer absoluter Fehler (MAE)

MAE = \frac{\sum_{i = 1}^{n} ∣ \overset{ˉ}{y_{나는}} - y_{나는} ∣}{n} text{MAE} = frac{sum_{i=1}^n |bar{y_i} - y_i|}{n}

Quelle est la différence entre ces deux-là et lequel est le meilleur ? La vraie réponse est que cela dépend de divers facteurs. Considérons un exemple simple de régression linéaire bidimensionnelle.

Dans de nombreux cas, il peut y avoir des points de données qui constituent des valeurs aberrantes, des points éloignés des autres points de données. En termes de régression linéaire, cela signifie qu'il y a quelques points sur le $x y xy$ -avions qui sont loin des autres. Si vous vous souvenez de vos cours de statistiques, ce sont des points comme ceux-ci qui peuvent affecter de manière significative la droite de régression linéaire calculée.

Si vous vouliez penser à une ligne qui pourrait traverser les quatre points, alors $y = x y = x$ serait un excellent choix car cette ligne passerait par tous les points.

Cependant, disons que je décide d'ajouter un autre point à $(5, 1) (5, 1)$ . Maintenant, quelle devrait être la droite de régression ? Eh bien, il s'avère que c'est complètement différent : $y = 0,2 x 1,6 y = 0,2x 1,6$

Optimizing Your Neural Networks

Un graphique simple avec des points sur (1, 1), (2, 2), (3, 3), (4, 4) et (5,1 ) avec une ligne de régression linéaire qui le traverse.

Compte tenu des points de données précédents, la ligne s'attendrait à ce que la valeur de $y y$ quand $x = 5 x = 5$ est 5, mais en raison de la valeur aberrante et de son MSE, la ligne de régression est « tirée vers le bas » de manière significative.

Ce n'est qu'un exemple simple, mais cela pose une question à laquelle vous, en tant que développeur d'apprentissage automatique, devez vous arrêter et réfléchir : Dans quelle mesure mon modèle doit-il être sensible aux valeurs aberrantes ? Si vous voulez que votre modèle pour être plus sensible aux valeurs aberrantes, vous choisirez alors une métrique comme MSE, car dans ce cas, les erreurs impliquant des valeurs aberrantes sont plus prononcées en raison de la mise au carré et votre modèle s'ajustera pour minimiser cela. Sinon, vous choisiriez une métrique comme MAE, qui ne se soucie pas autant des valeurs aberrantes.

옵티마이저

이전 게시물에서는 역전파, 경사하강법의 개념과 이들이 모델 손실을 최소화하는 방법에 대해서도 논의했습니다. 그라디언트는 가장 큰 변화의 방향을 가리키는 벡터입니다. 경사하강법 알고리즘은 이 벡터를 계산하고 정확히 반대 방향으로 이동하여 결국 최소값에 도달합니다.

대부분의 최적화 프로그램에는 일반적으로 다음과 같이 표시되는 특정 학습률이 있습니다. $α 알파$ 그들이 고수하는 것. 본질적으로 이는 기울기를 계산할 때마다 알고리즘이 최소값을 향해 이동하는 정도를 나타냅니다. 학습률을 너무 크게 설정하지 않도록 주의하세요! 최소값을 반복적으로 건너뛸 수 있는 큰 단계로 인해 알고리즘이 최소값에 도달하지 못할 수도 있습니다.

경사하강법으로 돌아가면 손실을 최소화하는 데 효과적이지만 손실 함수가 전체 데이터세트에 대해 계산되므로 훈련 프로세스가 크게 느려질 수 있습니다. 더 효율적이지만 각각의 단점이 있는 경사하강법에 대한 여러 가지 대안이 있습니다.

확률적 경사하강법

표준 경사하강법의 가장 인기 있는 대안 중 하나는 확률적 경사하강법(SGD)이라는 변형입니다. 경사하강법과 마찬가지로 SGD에도 고정된 학습률이 있습니다. 그러나 SGD는 경사 하강과 같은 전체 데이터 세트를 실행하는 대신 무작위로 선택된 작은 샘플을 사용하고 대신 샘플을 기반으로 신경망의 가중치를 업데이트합니다. 결국 매개변수 값은 손실 함수를 대략적으로(정확하지는 않지만) 최소화하는 지점으로 수렴됩니다. 이는 항상 정확한 최소값에 도달하지 않기 때문에 SGD의 단점 중 하나입니다. 또한 경사하강법과 마찬가지로 설정한 학습률에 계속 민감합니다.

아담 옵티마이저

Adam이라는 이름은 적응 모멘트 추정에서 따왔습니다. 기본적으로 SGD의 두 가지 변형을 결합하여 각 훈련 반복 중에 업데이트되는 빈도에 따라 각 입력 매개변수의 학습 속도를 조정합니다(적응형 학습 속도). 동시에 과거 기울기 계산을 이동 평균으로 추적하여 업데이트를 원활하게 합니다(모멘텀). 하지만 모멘텀 특성으로 인해 다른 알고리즘보다 수렴하는 데 시간이 더 오래 걸릴 수 있습니다.