La régression est l'un des outils les plus puissants en statistique. Les algorithmes d'apprentissage supervisé du machine learning sont divisés en deux types : les algorithmes de classification et les algorithmes de régression. L'algorithme de régression est utilisé pour la prédiction de distribution continue et peut prédire des données continues plutôt que de simples étiquettes de catégories discrètes.
L'analyse de régression est largement utilisée dans le domaine de l'apprentissage automatique, comme la prévision des ventes de produits, du flux de trafic, des prix des logements, des conditions météorologiques, etc. L'algorithme de régression est un algorithme d'apprentissage automatique couramment utilisé pour établir la relation entre les indépendants relation entre la variable X et la variable dépendante Y. Du point de vue de l'apprentissage automatique, il est utilisé pour créer un modèle d'algorithme (fonction) afin d'obtenir la relation de mappage entre l'attribut X et l'étiquette Y. Pendant le processus d'apprentissage, l'algorithme essaie de trouver la meilleure relation de paramètres afin que l'ajustement soit le meilleur Dans l'algorithme de régression, le résultat final de l'algorithme (fonction) est une valeur de données continue. La valeur d'entrée (valeur d'attribut) est un attribut/vecteur numérique à dimensions DCertains algorithmes de régression couramment utilisés incluent la régression linéaire, la régression polynomiale, la régression d'arbre de décision, la régression Ridge, la régression Lasso, la régression ElasticNet, etc.Cet article sera présenter quelques algorithmes de régression courants et leurs caractéristiques respectives régression arborescente
Compréhension et explication très intuitives.
Il est très sensible aux valeurs aberrantes.
2. Régression polynomiale
3. Régression des machines à vecteurs de support
4. Régression de l'arbre de décision
L'arbre de décision est une méthode utilisée pour la classification et la régression non paramétrique méthode d'apprentissage supervisé. L'objectif est de créer un modèle qui prédit la valeur d'une variable cible en apprenant des règles de décision simples déduites des caractéristiques des données. Un arbre peut être considéré comme une approximation constante par morceaux.La régression de forêt aléatoire et la régression d'arbre de décision sont fondamentalement très similaires. Il s'agit d'un méta-estimateur qui peut ajuster plusieurs arbres de décision sur divers sous-échantillons de l'ensemble de données et les moyenner pour améliorer la précision des prédictions et contrôler le surajustement
Régresseur de forêt aléatoire dans les problèmes de régression Les performances peuvent être meilleures ou pires que celles des arbres de décision (bien que souvent meilleur dans les problèmes de classification) en raison de subtils compromis de surajustement et de sous-ajustement inhérents à l'algorithme de construction d'arbres
La régression LASSO est une variante de la régression linéaire par retrait. La réduction est le processus de réduction des valeurs de données jusqu'à un point central en tant que moyenne. Ce type de régression est idéal pour les modèles présentant une multicolinéarité sévère (forte corrélation entre les caractéristiques)
La régression Ridge est très similaire à la régression LASSO car les deux techniques utilisent des méthodes de retrait. Les régressions Ridge et LASSO conviennent toutes deux aux modèles présentant de graves problèmes de multicolinéarité (c'est-à-dire une corrélation élevée entre les caractéristiques). La principale différence entre eux est que Ridge utilise la régularisation L2, ce qui signifie qu'aucun des coefficients n'ira à zéro (mais proche de zéro) comme dans la régression LASSO
ElasticNet est un autre modèle de régression linéaire entraîné à l'aide de la régularisation L1 et L2. Il s'agit d'un hybride des techniques de régression Lasso et Ridge, il convient donc également aux modèles présentant une multicolinéarité sévère (les caractéristiques sont fortement corrélées les unes aux autres).
Lors de la pesée entre Lasso et Ridge, un avantage pratique est qu'Elastic-Net peut hériter d'une partie de la stabilité de Ridge sous rotation
XGBoost est une version efficace de l'algorithme d'amplification de gradient et. effectivement mis en œuvre. Le boosting de gradient est un type d'algorithme d'apprentissage automatique d'ensemble qui peut être utilisé pour des problèmes de classification ou de régression.
XGBoost est une bibliothèque open source développée à l'origine par Chen Tianqi dans son article de 2016 « XGBoost : A Scalable Tree Boosting System ». L'algorithme est conçu pour être efficace et efficient en termes de calcul
Dans la régression linéaire des poids locaux (régression linéaire des poids locaux), nous effectuons également une régression linéaire. Cependant, contrairement à la régression linéaire ordinaire, la régression linéaire pondérée localement est une méthode de régression linéaire locale. En introduisant des poids (fonctions de noyau), lors des prédictions, seuls certains échantillons proches des points de test sont utilisés pour calculer les coefficients de régression. La régression linéaire ordinaire est une régression linéaire globale, qui utilise tous les échantillons pour calculer les coefficients de régression
L'avantage est d'éviter le sous-ajustement grâce à la pondération des fonctions du noyau, et les inconvénients sont également évidentsK Débogage est requis. Lorsque la régression linéaire multiple est surajustée, vous pouvez essayer la pondération locale du noyau gaussien pour éviter le surajustement.
Le modèle de régression linéaire résolu à l'aide de la méthode d'inférence bayésienne est appelé régression linéaire bayésienne
La régression linéaire bayésienne est une méthode qui combine les paramètres d'un modèle linéaire Traiter comme une variable aléatoire et calculer le postérieur à partir du antérieur. La régression linéaire bayésienne peut être résolue par des méthodes numériques et, sous certaines conditions, des statistiques postérieures ou associées sous forme analytique peuvent également être obtenues
La régression linéaire bayésienne a les propriétés de base des modèles statistiques bayésiens et peut résoudre des coefficients de poids Fonction de densité de probabilité , apprentissage en ligne et tests d'hypothèses de modèles basés sur le facteur Bayes (facteur Bayes)
L'avantage de la régression bayésienne est son adaptabilité des données, peut réutiliser les données et empêcher le surajustement. Dans le processus d'estimation, des termes de régularisation peuvent être introduits.Par exemple, en introduisant le terme de régularisation L2 dans la régression linéaire bayésienne, la régression bayésienne de crête peut être réalisée.L'inconvénient est que le processus d'apprentissage est trop coûteux. Lorsque le nombre de fonctionnalités est inférieur à 10, vous pouvez essayer la régression bayésienne.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!