Cinq questions courantes pour les débutants en apprentissage automatique-IA-php.cn

Cinq questions courantes pour les débutants en apprentissage automatique

王林

Libérer： 2023-04-12 17:34:14

avant

1436 Les gens l'ont consulté

Gestion des valeurs manquantes

Cinq questions courantes pour les débutants en apprentissage automatique

Dans le prétraitement des données, l'étape critique consiste à gérer les données manquantes, car les modèles d'apprentissage automatique n'accepteront pas les valeurs NaN comme entrée. Il existe de nombreuses façons de renseigner ces valeurs NaN, mais nous devons d'abord comprendre l'importance des valeurs manquantes.

Un moyen très simple consiste à supprimer toutes les valeurs manquantes de l'ensemble de données d'apprentissage automatique, mais avant cela, vérifiez le pourcentage global de valeurs NaN présentes dans l'ensemble de données d'apprentissage automatique. S'il est inférieur à 1 %, nous pouvons supprimer toutes les valeurs manquantes, sinon nous devons imputer les données en choisissant d'autres méthodes comme la mesure de tendance centrale, l'imputer KNN, etc.

Lorsque nous utilisons des nombres dans les fonctionnalités, nous utilisons la moyenne ou la médiane. La moyenne est la valeur moyenne que nous pouvons calculer en additionnant toutes les valeurs d'affilée puis en divisant par leur montant. La médiane représente également une moyenne. La médiane organise les données par ordre de taille pour former une séquence, qui correspond aux données au milieu de la séquence. Lorsque les données individuelles d’un ensemble de données varient considérablement, la médiane est souvent utilisée pour décrire la tendance centrale de l’ensemble de données.

S'il existe une distribution asymétrique dans l'ensemble de données d'apprentissage automatique, il est souvent préférable d'utiliser la médiane plutôt que la moyenne.

Outliers/Outliers

Une valeur aberrante est un point de données qui est significativement différent des autres observations. Parfois, ces valeurs aberrantes peuvent aussi être sensibles. Avant de traiter les valeurs aberrantes, il est recommandé d’examiner l’ensemble de données d’apprentissage automatique.

Par exemple :

Les valeurs aberrantes sont des prévisions de valeurs de profondeur significatives basées sur les précipitations observées.
Les valeurs aberrantes dans les prévisions de prix de l’immobilier n’ont aucun sens.

Fuite de données

Quel est le problème de fuite de données dans les modèles d'apprentissage automatique ?

Les fuites de données se produisent lorsque les données que nous utilisons pour entraîner des modèles d'apprentissage automatique contiennent des informations que le modèle d'apprentissage automatique tente de prédire. Cela entraîne des résultats de prédiction peu fiables une fois le modèle déployé.

Ce problème peut être causé par la méthode de standardisation ou de normalisation des données. Parce que la plupart d'entre nous continuent d'utiliser ces méthodes avant de diviser les données en ensembles de formation et de test.

Choisir le bon modèle d'apprentissage automatique

En temps réel, je pense que se tourner inutilement vers certains modèles complexes peut créer des problèmes d'interprétabilité pour les personnes orientées business. Par exemple, la régression linéaire sera plus facile à interpréter qu’un algorithme de réseau neuronal.

Sélectionnez le modèle d'apprentissage automatique correspondant principalement en fonction de la taille et de la complexité de l'ensemble de données. Si nous traitons de problèmes complexes, nous pouvons utiliser certains modèles d'apprentissage automatique efficaces, tels que SVN, KNN, forêt aléatoire, etc.

La plupart du temps, la phase d'exploration des données nous aidera à choisir le modèle de machine learning correspondant. Si les données sont linéairement séparables dans la visualisation, nous pouvons alors utiliser la régression linéaire. Les machines vectorielles de support et KNN seront utiles si nous ne savons rien des données.

Il existe également un problème d'interprétabilité des modèles. Par exemple, la régression linéaire est plus facile à expliquer que les algorithmes de réseaux neuronaux.

Metriques de validation

Les métriques sont des mesures quantitatives des prédicteurs de modèles et des données réelles. Si la question est en régression, les mesures clés sont l'exactitude (score R2), la MAE (erreur absolue moyenne) et le RMSE (erreur quadratique moyenne). S'il s'agit d'un problème de classification, les indicateurs clés sont la précision, le rappel, le F1score et la matrice de confusion.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!