En machine learning, la régularisation est une technique utilisée pour empêcher un modèle de surajuster. En introduisant un terme de pénalité dans les coefficients du modèle, la régularisation peut limiter la taille des paramètres du modèle, améliorant ainsi la capacité de généralisation du modèle. Cette technique peut améliorer la fiabilité, la vitesse et la précision du modèle. La régularisation limite essentiellement la complexité du modèle en ajoutant des paramètres supplémentaires, évitant ainsi le problème de surajustement du modèle causé par des paramètres de réseau excessifs.
Le but de la régularisation est de réduire la variance de l'estimateur en simplifiant l'estimateur, améliorant ainsi la capacité de généralisation du modèle. Cependant, la régularisation atteint cet objectif d’une manière qui accroît les biais. Généralement, l’augmentation du biais se produit lorsque la taille de l’échantillon est petite ou lorsque le nombre de paramètres est grand, c’est-à-dire lorsque le modèle est sujet au surajustement. Cependant, lorsque la régularisation est appliquée correctement, elle garantit que la bonne quantité de biais est introduite, évitant ainsi le problème de surajustement.
Le rôle et l'importance de la régularisation sont d'éviter le surapprentissage. En cas de surajustement, la capacité de généralisation du modèle est presque perdue. Cela signifie que le modèle ne fonctionne que sur l'ensemble de données d'entraînement et non sur d'autres ensembles de données. Grâce à la régularisation, la taille des paramètres du modèle peut être limitée en introduisant des termes de pénalité, réduisant ainsi la complexité du modèle et améliorant sa capacité de généralisation. Cela permet au modèle de mieux s'adapter aux nouveaux ensembles de données, améliorant ainsi ses performances prédictives et sa stabilité.
Par exemple, la régularisation peut être considérée comme le contrôle de l'équilibre entre biais et variance en ajustant le paramètre a. Lorsque la valeur de a est supérieure, les coefficients du modèle diminuent, réduisant ainsi la variance. Augmenter progressivement a peut réduire la variance et éviter le surajustement, mais après avoir dépassé un certain seuil, un biais sera introduit, conduisant à un sous-ajustement.
La régularisation fonctionne en ajoutant un terme de pénalité avec la somme résiduelle des carrés (RSS) à un modèle complexe. Prenons comme exemple une simple équation de régression linéaire. où Y représente la fonctionnalité ou la réponse dépendante.
Y est approximativement β0+β1X1+β2X2+…+βpXp, X1, X2,…Xp sont des caractéristiques indépendantes ou des variables prédictives de Y, β0, β1,…..βn représentent les coefficients de différentes variables ou variables prédictives (X ) Estimation, qui décrit la taille du poids attaché à une fonctionnalité.
Le processus d'ajustement comprend la fonction de perte et la fonction de somme résiduelle des carrés (RSS). Les coefficients sont choisis de manière à minimiser la fonction de perte.
Les coefficients seront ajustés en fonction des données d'entraînement. S'il y a du bruit dans les données d'entraînement, vous constaterez que les coefficients estimés ne se généraliseront pas bien aux données futures. C’est là qu’intervient la régularisation, réduisant et régularisant à zéro les estimations apprises grâce à la formation.
dropout
En décrochage, les nombres aléatoires activés entraîneront le réseau plus efficacement. L'activation est le résultat obtenu lorsque l'entrée est multipliée par le poids. Si des parties spécifiques des activations sont supprimées à chaque couche, aucune activation spécifique n'apprendra le modèle d'entrée. Cela signifie que le modèle d'entrée ne souffre d'aucun surajustement.
Normalisation par lots
La normalisation par lots parvient à normaliser la sortie de la couche d'activation précédente en soustrayant la moyenne du lot et en divisant par l'écart type du lot. Il introduit deux paramètres entraînables dans chaque couche afin que la sortie normalisée soit multipliée par gamma et bêta. Les valeurs de gamma et bêta seront trouvées grâce au réseau de neurones. En affaiblissant le couplage entre les paramètres de couche initiaux et les paramètres de couche suivants, le taux d'apprentissage est amélioré, la précision est améliorée et le problème de dérive de covariance est résolu.
Augmentation des données
L'augmentation des données consiste à utiliser des données existantes pour créer des données synthétiques, augmentant ainsi la quantité réelle de données disponibles. Aide les modèles d'apprentissage profond à devenir plus précis en générant des modifications dans les données que le modèle peut rencontrer dans le monde réel.
Early Stopping
Utilisez une partie de l'ensemble de formation comme ensemble de validation et mesurez les performances du modèle par rapport à cet ensemble de validation. Si les performances sur cet ensemble de validation se détériorent, arrêtez immédiatement l'entraînement du modèle.
Régularisation L1
Un modèle de régression qui utilise la technique de régularisation L1 est appelé régression Lasso. Le modèle de régression Lasso, l'opérateur de retrait et de sélection le moins absolu, ajoute la « valeur absolue » du coefficient comme terme de pénalité à la fonction de perte.
Régularisation L2
Le modèle de régression utilisant la régularisation L2 est appelé régression de crête. Le modèle de régression Ridge est la régression Ridge. Dans la régression Ridge, l'amplitude carrée du coefficient est ajoutée à la fonction de perte en tant que terme de pénalité.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!