Algorithmes de régression couramment utilisés et leurs caractéristiques dans les applications d'apprentissage automatique-IA-php.cn

La régression est l'un des outils les plus puissants en statistique. Les algorithmes d'apprentissage supervisé du machine learning sont divisés en deux types : les algorithmes de classification et les algorithmes de régression. L'algorithme de régression est utilisé pour la prédiction de distribution continue et peut prédire des données continues plutôt que de simples étiquettes de catégories discrètes.

L'analyse de régression est largement utilisée dans le domaine de l'apprentissage automatique, comme la prévision des ventes de produits, du flux de trafic, des prix des logements, des conditions météorologiques, etc.

L'algorithme de régression est un algorithme d'apprentissage automatique couramment utilisé pour établir la relation entre les indépendants relation entre la variable X et la variable dépendante Y. Du point de vue de l'apprentissage automatique, il est utilisé pour créer un modèle d'algorithme (fonction) afin d'obtenir la relation de mappage entre l'attribut X et l'étiquette Y. Pendant le processus d'apprentissage, l'algorithme essaie de trouver la meilleure relation de paramètres afin que l'ajustement soit le meilleur

Dans l'algorithme de régression, le résultat final de l'algorithme (fonction) est une valeur de données continue. La valeur d'entrée (valeur d'attribut) est un attribut/vecteur numérique à dimensions D

Certains algorithmes de régression couramment utilisés incluent la régression linéaire, la régression polynomiale, la régression d'arbre de décision, la régression Ridge, la régression Lasso, la régression ElasticNet, etc.

Cet article sera présenter quelques algorithmes de régression courants et leurs caractéristiques respectives régression arborescente

Random La forêt est de retour
LASSO est de retour
Ridge est de retour
ElasticNet est de retour
X GBoost est de retour
Local Weighted Régression linéaire
Premièrement, la régression linéaireLa régression linéaire est souvent le premier algorithme que les gens découvrent sur l'apprentissage automatique et la science des données. La régression linéaire est un modèle linéaire qui suppose une relation linéaire entre une variable d'entrée (X) et une seule variable de sortie (y). De manière générale, il existe deux situations :
La régression linéaire univariée est une méthode de modélisation utilisée pour analyser la relation entre une variable d'entrée unique (c'est-à-dire une variable de caractéristique unique) et une variable de sortie unique.
Régression linéaire multivariée (également appelée régression linéaire multiple) : elle modélise la relation entre plusieurs variables d'entrée (plusieurs variables de caractéristiques) et une seule variable de sortie. Quelques points clés sur la régression linéaire :
Rapide et facile à modéliser

Elle est particulièrement utile lorsque la relation que vous souhaitez modéliser n'est pas très complexe et que vous n'avez pas beaucoup de données.

Compréhension et explication très intuitives.

Il est très sensible aux valeurs aberrantes.

2. Régression polynomiale

Lorsque nous souhaitons créer un modèle pour des données séparables non linéaires, la régression polynomiale est l'un des choix les plus populaires. Elle est similaire à la régression linéaire mais utilise la relation entre les variables X et y pour trouver la meilleure façon de tracer une courbe qui correspond aux points de données.

Quelques points clés sur la régression polynomiale :
est capable de modéliser des données séparables non linéaires ; En général, il est plus flexible et permet de modéliser des relations assez complexes.
Contrôle total sur la modélisation des variables de caractéristiques (exposants à définir).
Nécessite une conception soignée. Une certaine connaissance des données est nécessaire pour sélectionner le meilleur indice.

Si l'index n'est pas choisi correctement, il est facile de le surajuster.

3. Régression des machines à vecteurs de support

Les machines à vecteurs de support sont bien connues dans les problèmes de classification. L'utilisation de SVM en régression est appelée Support Vector Regression (SVR). Scikit-learn a cette méthode intégrée à SVR().

Quelques points clés sur la régression vectorielle de support :

4. Régression de l'arbre de décision

L'arbre de décision est une méthode utilisée pour la classification et la régression non paramétrique méthode d'apprentissage supervisé. L'objectif est de créer un modèle qui prédit la valeur d'une variable cible en apprenant des règles de décision simples déduites des caractéristiques des données. Un arbre peut être considéré comme une approximation constante par morceaux.