Guide complet de terminologie de l'apprentissage automatique-Tutoriel Python-php.cn

Comprehensive Machine Learning Terminology Guide

Introduction

Bienvenue dans le guide complet de terminologie de l’apprentissage automatique ! Que vous soyez un nouveau venu dans le domaine de l'apprentissage automatique ou un praticien expérimenté souhaitant rafraîchir votre vocabulaire, ce guide est conçu pour être votre ressource incontournable pour comprendre les termes et concepts clés qui constituent le fondement du ML.

Concepts fondamentaux

Machine Learning (ML) : un sous-ensemble de l'intelligence artificielle qui se concentre sur la création de systèmes capables d'apprendre et de prendre des décisions basées sur les données.

Intelligence artificielle (IA) : domaine plus large de la création de machines intelligentes capables de simuler la capacité de réflexion et le comportement humains.

Deep Learning : un sous-ensemble d'apprentissage automatique basé sur des réseaux de neurones artificiels à plusieurs couches.

Ensemble de données : une collection de données utilisée pour entraîner et tester des modèles d'apprentissage automatique.

Caractéristique : Une propriété individuelle mesurable ou une caractéristique d'un phénomène observé.

Étiquette : La variable cible que nous essayons de prédire dans l'apprentissage supervisé.

Modèle : représentation mathématique d'un processus du monde réel, tirée des données.

Algorithme : Une procédure ou une formule étape par étape pour résoudre un problème.

Formation : Le processus d'apprentissage d'un modèle pour faire des prédictions ou des décisions basées sur des données.

Inférence : utilisation d'un modèle entraîné pour faire des prédictions sur de nouvelles données invisibles.

Types d'apprentissage automatique

Apprentissage supervisé : apprendre à partir de données étiquetées pour prédire les résultats de données imprévues.

Apprentissage non supervisé : Découverte de modèles cachés ou de structures intrinsèques dans les données d'entrée sans réponses étiquetées.

Apprentissage semi-supervisé : apprentissage à partir d'une combinaison de données étiquetées et non étiquetées.

Apprentissage par renforcement : Apprendre à prendre des décisions en interagissant avec un environnement.

Transférer l'apprentissage : appliquer les connaissances acquises d'une tâche à une tâche connexe.

Évaluation du modèle et mesures

Précision : La proportion de prédictions correctes parmi le nombre total de cas examinés.

Précision : La proportion de vraies prédictions positives parmi toutes les prédictions positives.

Rappel : La proportion de véritables prédictions positives parmi tous les cas positifs réels.

F1 Score : La moyenne harmonique de la précision et du rappel.

Courbe ROC : Un tracé graphique illustrant la capacité de diagnostic d'un système de classificateur binaire.

AUC (Area Under the Curve) : Une mesure de la capacité d'un classificateur à distinguer les classes.

Matrice de confusion : Un tableau utilisé pour décrire les performances d'un modèle de classification.

Validation croisée : procédure de rééchantillonnage utilisée pour évaluer les modèles d'apprentissage automatique sur un échantillon de données limité.

Surajustement : lorsqu'un modèle apprend trop bien les données d'entraînement, y compris le bruit et les fluctuations.

Sous-ajustement : Lorsqu'un modèle est trop simple pour capturer la structure sous-jacente des données.

Réseaux de neurones et apprentissage profond

Neurone : Unité de base d'un réseau neuronal, vaguement calqué sur le neurone biologique.

Fonction d'activation : Une fonction qui détermine la sortie d'un neurone en fonction d'une entrée ou d'un ensemble d'entrées.

Poids : Paramètres au sein d'un réseau neuronal qui déterminent la force de la connexion entre les neurones.

Biais : Un paramètre supplémentaire dans les réseaux de neurones utilisé pour ajuster la sortie ainsi que la somme pondérée des entrées du neurone.

Rétropropagation : Un algorithme pour entraîner les réseaux de neurones en ajustant de manière itérative les poids du réseau en fonction de l'erreur dans ses prédictions.

Gradient Descent : un algorithme d'optimisation utilisé pour minimiser la fonction de perte en se déplaçant de manière itérative dans la direction de la descente la plus raide.

Époque : un passage complet à travers l'ensemble des données d'entraînement.

Lot : sous-ensemble des données d'entraînement utilisées dans une itération d'entraînement du modèle.

Taux d'apprentissage : un hyperparamètre qui contrôle dans quelle mesure il faut modifier le modèle en réponse à l'erreur estimée à chaque fois que les poids du modèle sont mis à jour.

Réseau neuronal convolutif (CNN) : type de réseau neuronal couramment utilisé pour la reconnaissance et le traitement d'images.

Réseau neuronal récurrent (RNN) : type de réseau neuronal conçu pour reconnaître des modèles dans des séquences de données.

Mémoire longue à court terme (LSTM) : Un type de RNN capable d'apprendre des dépendances à long terme.

Transformer : Une architecture de modèle qui repose entièrement sur un mécanisme d'attention pour dessiner des dépendances globales entre l'entrée et la sortie.

Ingénierie et sélection des fonctionnalités

Ingénierie des fonctionnalités : processus d'utilisation des connaissances du domaine pour extraire des fonctionnalités à partir de données brutes.

Sélection des fonctionnalités : processus de sélection d'un sous-ensemble de fonctionnalités pertinentes à utiliser dans la construction de modèles.

Réduction de dimensionnalité : Techniques pour réduire le nombre de variables d'entrée dans un ensemble de données.

Analyse en composantes principales (ACP) : procédure statistique qui utilise une transformation orthogonale pour convertir un ensemble d'observations de variables éventuellement corrélées en un ensemble de valeurs de variables linéairement non corrélées.

Méthodes d'ensemble

Ensemble Learning : processus de combinaison de plusieurs modèles pour résoudre un problème d'intelligence informatique.

Bagging : une méthode d'ensemble qui utilise plusieurs sous-ensembles de données d'entraînement pour entraîner différents modèles.

Boosting : Une méthode d'ensemble qui combine des apprenants faibles pour créer un apprenant fort.

Random Forest : Une méthode d'apprentissage d'ensemble qui construit une multitude d'arbres de décision.

Traitement du langage naturel (NLP)

Tokénisation : processus de décomposition du texte en mots ou sous-mots individuels.

Rommage : Le processus de réduction des mots fléchis à leur racine de mot ou à leur forme racine.

Lemmatisation : Processus de regroupement de différentes formes fléchies d'un mot.

Incorporation de mots : une représentation apprise du texte où les mots ayant une signification similaire ont une représentation similaire.

Reconnaissance d'entités nommées (NER) : La tâche d'identification et de classification des entités nommées dans le texte.

Analyse des sentiments : utilisation du traitement du langage naturel pour identifier et extraire des informations subjectives à partir d'un texte.

Apprentissage par renforcement

Agent : L'apprenant ou le décideur dans un scénario d'apprentissage par renforcement.

Environnement : Le monde dans lequel l'agent opère et apprend.

État : La situation ou l'état actuel de l'agent dans l'environnement.

Action : Un mouvement ou une décision prise par l'agent.

Récompense : Le feedback de l'environnement pour évaluer l'action entreprise par l'agent.

Politique : Une stratégie utilisée par l'agent pour déterminer la prochaine action en fonction de l'état actuel.

Concepts avancés

Generative Adversarial Network (GAN) : une classe de cadres d'apprentissage automatique où deux réseaux de neurones s'affrontent.

Mécanisme d'attention : Une technique qui imite l'attention cognitive, en améliorant les parties importantes des données d'entrée et en diminuant les parties non pertinentes.

Apprentissage par transfert : problème de recherche en apprentissage automatique qui se concentre sur le stockage des connaissances acquises lors de la résolution d'un problème et sur son application à un problème différent mais connexe.

Few-Shot Learning : type d'apprentissage automatique dans lequel un modèle est entraîné à reconnaître de nouvelles classes à partir de quelques exemples seulement.

Explicable AI (XAI) : Systèmes d'intelligence artificielle dont les résultats peuvent être compris par les humains.

Apprentissage fédéré : technique d'apprentissage automatique qui entraîne un algorithme sur plusieurs appareils ou serveurs décentralisés contenant des échantillons de données locales.

AutoML : processus d'automatisation de bout en bout du processus d'application de l'apprentissage automatique à des problèmes du monde réel.