(Random Forest) est un algorithme d'apprentissage d'ensemble basé sur des arbres de décision (expliqués plus tôt), qui peut gérer à la fois les problèmes de classification et de régression.
L'idée de base de la forêt aléatoire est de générer plusieurs arbres de décision en sélectionnant aléatoirement des échantillons et des caractéristiques, puis d'obtenir le résultat final par vote majoritaire (problème de classification) ou calcul de moyenne (problème de régression). Plus précisément, le processus de formation de la forêt aléatoire peut être divisé en les étapes suivantes :
Tout d'abord, sélectionnez au hasard un certain nombre d'échantillons dans l'ensemble de données d'origine pour former un nouvel ensemble de formation
Sélectionnez au hasard un certain nombre de échantillons de toutes les fonctionnalités Nombre de fonctionnalités, en tant que fonctionnalités candidates du nœud
Utilisez l'ensemble de formation ci-dessus et les fonctionnalités candidates pour générer un arbre de décision
Répétez les étapes 1 à 3 plusieurs fois pour générer plusieurs arbres de décision
Pour les problèmes de classification, chaque nœud feuille à l'intérieur de chaque arbre de décision représente une catégorie, et le résultat final est un vote majoritaire ; pour les problèmes de régression, le résultat final est la moyenne de toutes les sorties de l'arbre de décision
from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import pandas as pd # 读取数据 data = pd.read_csv('data.csv') # 划分训练集和测试集 train, test = train_test_split(data, test_size=0.3) # 提取训练集特征和标签 train_x = train.drop(columns=['label']) train_y = train['label'] # 构建随机森林模型 rf = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=0) # 拟合模型 rf.fit(train_x, train_y) # 提取测试集特征和标签 test_x = test.drop(columns=['label']) test_y = test['label'] # 预测并计算准确率 pred_y = rf.predict(test_x) accuracy = accuracy_score(test_y, pred_y) print("Accuracy:", accuracy)
Lors de la mise en œuvre du code, vous devez d'abord importer les bibliothèques requises. Ensuite, lisez les données et divisez-les en un ensemble d’entraînement et un ensemble de test. Par la suite, les caractéristiques et les étiquettes de l'ensemble d'apprentissage sont extraites et un modèle de forêt aléatoire est construit sur la base de ces données. Après avoir ajusté le modèle, extrayez les caractéristiques de l'ensemble de test, utilisez le modèle pour prédire et calculez la précision de la prédiction.
En tant qu'algorithme d'apprentissage d'ensemble basé sur des arbres de décision, il présente les avantages suivants :
a une plus grande précision et une meilleure robustesse
peut gérer des données de grande dimension, sans avoir besoin de sélection de fonctionnalités
vous pouvez évaluer l'impact de chaque fonctionnalité sur la classification/régression
Excellent dans le traitement de grands ensembles de données.
La technologie de randomisation peut réduire le surapprentissage.
peut être utilisé pour évaluer des variables et des fonctionnalités importantes.
La vitesse de calcul est relativement rapide.
Bien sûr, il y a des avantages et des inconvénients :
Lors du traitement de données à grande échelle, le temps de formation et la complexité spatiale sont élevés
Pour certains cas particuliers (tels que les données avec des caractéristiques hautement corrélées), la forêt aléatoire Les performances peuvent être médiocres
Le modèle de forêt aléatoire est sujet au surajustement pour les données comportant du bruit et des valeurs aberrantes.
ne fonctionne pas bien avec des ensembles de données déséquilibrés.
Les résultats du modèle de forêt aléatoire sont difficiles à interpréter.
Les besoins en stockage et en calcul des données d'entraînement sont relativement importants.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!