Avec le développement de l'intelligence artificielle, les réseaux de neurones ont montré d'excellentes performances dans de nombreux domaines, notamment l'analyse de régression. Le langage Python est souvent utilisé pour les tâches d'apprentissage automatique et d'analyse de données, et fournit de nombreuses bibliothèques d'apprentissage automatique open source, telles que Tensorflow et Keras. Cet article expliquera comment utiliser les réseaux de neurones pour l'analyse de régression en Python.
1. Qu'est-ce que l'analyse de régression ?
En statistiques, l'analyse de régression est une méthode d'analyse des relations causales en utilisant des modèles mathématiques de variables continues pour décrire la relation entre les variables indépendantes et les variables dépendantes. Dans l'analyse de régression, une équation linéaire est généralement utilisée pour décrire cette relation, par exemple :
y = a + bx
où y est la variable dépendante, x est la variable indépendante, a et b sont des constantes entre parenthèses, indiquant la linéarité. L'interception et la pente de la relation. L'analyse de régression peut prédire la valeur d'une variable dépendante en ajustant une équation linéaire. Pour les données comportant des relations complexes ou non linéaires, des modèles plus complexes peuvent être utilisés.
2. Application du réseau neuronal dans l'analyse de régression
Le réseau neuronal est un modèle mathématique complexe composé de plusieurs nœuds. Il fait des prédictions sur de nouvelles données en apprenant les modèles et les modèles de données d'entrée. L'application des réseaux de neurones dans l'analyse de régression consiste à saisir des variables dépendantes et des variables indépendantes dans le réseau et à entraîner le réseau de neurones à trouver la relation entre elles.
Contrairement à l'analyse de régression traditionnelle, les réseaux de neurones n'ont pas besoin de définir à l'avance une équation linéaire ou non linéaire lors de l'analyse des données. Les réseaux de neurones peuvent trouver automatiquement des modèles et des modèles, et apprendre et analyser en fonction des détails de l'ensemble de données d'entrée. Cela permet aux réseaux de neurones d'afficher d'excellentes performances sur des ensembles de données à grande échelle, des données présentant des modèles complexes et une non-linéarité.
3. Utilisez Python pour l'analyse de régression
Scikit-learn et Keras de Python sont deux bibliothèques Python très populaires qui fournissent de nombreux outils pour les réseaux de neurones et l'analyse de régression. Ici, nous utiliserons le modèle séquentiel de Keras pour construire un réseau neuronal simple et utiliserons la méthode train_test_split de Scikit-learn pour diviser l'ensemble de données connu afin d'évaluer notre modèle.
Étape 1 : Prétraitement des données
Avant de commencer à utiliser les réseaux de neurones pour l'analyse de régression, vous devez préparer les données. Dans cet article, nous utiliserons l'ensemble de données sur l'efficacité énergétique de la plateforme d'apprentissage en ligne Kaggle. Cet ensemble de données contient des données sur l'économie de carburant des véhicules provenant de la National Highway Traffic Safety Administration des États-Unis. Les facteurs inclus dans les données, tels que le kilométrage, le nombre de cylindres, la cylindrée, la puissance et l'accélération, affectent tous le rendement énergétique.
Nous utiliserons la bibliothèque Pandas pour lire et traiter l'ensemble de données :
import pandas as pd #导入数据 df = pd.read_csv('auto-mpg.csv')
Étape 2 : Prétraitement des données
Nous devons convertir l'ensemble de données sous une forme que le réseau neuronal peut lire. Nous utiliserons la méthode get_dummies() de la bibliothèque Pandas pour décomposer les variables catégorielles en champs binaires pouvant être utilisés :
dataset = df.copy() dataset = pd.get_dummies(dataset, columns=['origin'])
Ensuite, nous devons partitionner l'ensemble de données en un ensemble d'entraînement et un ensemble de test pour évaluer notre modèle. Ici, nous choisissons d'utiliser la méthode train_test_split de Scikit-learn :
from sklearn.model_selection import train_test_split train_dataset, test_dataset = train_test_split(dataset, test_size=0.2, random_state=42) #获取训练集的目标变量 train_labels = train_dataset.pop('mpg') #获取测试集的目标变量 test_labels = test_dataset.pop('mpg')
Étape 3 : Créer un modèle de réseau neuronal
Nous utiliserons le modèle séquentiel de Keras pour construire un modèle de réseau neuronal, qui contient deux couches cachées entièrement connectées, et utiliserons la couche ReLU. avec fonction d'activation. Enfin, nous utilisons une couche de sortie avec un seul nœud pour prédire l'efficacité énergétique.
from tensorflow import keras from tensorflow.keras import layers model = keras.Sequential([ layers.Dense(64, activation='relu', input_shape=[len(train_dataset.keys())]), layers.Dense(64, activation='relu'), layers.Dense(1) ])
Étape 4 : Compiler et entraîner le modèle
Avant d'entraîner le modèle, nous devons compiler le modèle. Nous préciserons ici la fonction de perte et l'optimiseur ainsi que les métriques d'évaluation.
optimizer = keras.optimizers.RMSprop(0.001) model.compile(loss='mse', optimizer=optimizer, metrics=['mae', 'mse'])
Ensuite, nous utiliserons la méthode fit() pour entraîner le modèle et l'enregistrer dans l'objet historique pour une analyse ultérieure.
history = model.fit( train_dataset, train_labels, epochs=1000, validation_split=0.2, verbose=0, callbacks=[keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)])
Étape 5 : Évaluer le modèle
Enfin, nous utiliserons l'ensemble de données de test pour évaluer notre modèle et enregistrerons les résultats dans la variable y_pred.
test_predictions = model.predict(test_dataset).flatten() print('测试集的平均误差: ', round(abs(test_predictions - test_labels).mean(), 2))
Dans cet exemple, le modèle que nous avons utilisé a produit un résultat de prédiction avec une erreur moyenne d'environ 2,54, et nous pouvons voir la perte sur l'ensemble de test et l'ensemble de validation dans l'objet historique.
4. Résumé
Dans cet article, nous avons présenté comment utiliser les réseaux de neurones en Python pour l'analyse de régression. Nous avons commencé par le prétraitement des données, puis avons exploité les bibliothèques Keras et Scikit-learn pour créer et entraîner notre modèle, et évalué les performances du modèle. Les réseaux de neurones ont des performances puissantes et affichent des résultats extrêmement élevés dans le traitement d'ensembles de données à grande échelle et de problèmes non linéaires complexes. Pour votre prochain problème de régression, pourquoi ne pas essayer d’utiliser un réseau de neurones pour le résoudre ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!