Zero-shot learning (ZSL) est un paradigme d'apprentissage automatique qui utilise des modèles d'apprentissage profond pré-entraînés pour généraliser les échantillons à de nouvelles catégories. Son idée principale est de transférer les connaissances des instances de formation existantes vers la tâche de classification des instances de test. Plus précisément, les techniques d'apprentissage zéro-shot prédisent de nouvelles données en apprenant des couches et des attributs sémantiques intermédiaires, puis en appliquant ces connaissances lors de l'inférence. Cette méthode permet au modèle d'apprentissage automatique de classer selon des catégories qui n'ont jamais été vues auparavant, permettant ainsi d'identifier des catégories inconnues. Grâce à l'apprentissage zéro-shot, le modèle peut obtenir des capacités de généralisation plus larges à partir de données de formation limitées, améliorant ainsi son adaptabilité aux nouveaux problèmes du monde réel.
Il convient de noter que les ensembles de formation et de test sont disjoints dans l'apprentissage zéro-shot.
L'apprentissage zéro-shot est un sous-domaine de l'apprentissage par transfert, qui est principalement utilisé dans des situations où les espaces de fonctionnalités et d'étiquettes sont complètement différents. Contrairement à l’apprentissage par transfert isomorphe courant, l’apprentissage sans tir ne se limite pas à affiner un modèle pré-entraîné. Il nécessite d’apprendre à traiter de nouveaux problèmes sans aucun échantillon. L’objectif de l’apprentissage zéro-shot est d’utiliser les connaissances et l’expérience existantes pour transférer ces connaissances vers de nouveaux domaines afin de résoudre de nouveaux problèmes. Ce type d’apprentissage par transfert hétérogène est très utile pour traiter des situations dans lesquelles il n’y a pas ou peu d’étiquettes, car il peut effectuer des prédictions et des classifications en exploitant les informations des étiquettes existantes. Par conséquent, l’apprentissage sans tir a un grand potentiel pour jouer un rôle important dans de nombreuses applications du monde réel.
Classes vues : classes de données utilisées pour entraîner des modèles d'apprentissage en profondeur, tels que des données d'entraînement étiquetées.
Classes invisibles : classes de données que les modèles profonds existants doivent généraliser, telles que les données d'entraînement non étiquetées.
Informations auxiliaires : étant donné qu'aucune instance étiquetée appartenant à des classes invisibles n'est disponible, certaines informations auxiliaires sont nécessaires pour résoudre le problème d'apprentissage sans tir. Ces informations auxiliaires devraient inclure toutes les classes d’informations invisibles.
L'apprentissage Zero-shot repose également sur des ensembles d'entraînement étiquetés de classes visibles et invisibles. Les classes visibles et invisibles sont liées dans un espace vectoriel de grande dimension appelé espace sémantique, où les connaissances des classes visibles peuvent être transférées aux classes invisibles.
L'apprentissage zéro-shot implique deux phases de formation et d'inférence :
Formation : Acquérir des connaissances sur un ensemble d'échantillons de données étiquetés.
Inférence : étendre les connaissances précédemment acquises pour utiliser les informations auxiliaires fournies pour de nouveaux ensembles de classes.
Méthodes basées sur des classificateurs
Les méthodes existantes basées sur des classificateurs adoptent généralement une solution un-à-plusieurs pour former des classificateurs multi-classes Zero-shot. Autrement dit, pour chaque classe invisible, entraînez un classificateur binaire un-à-un. Nous classons en outre les méthodes basées sur un classificateur en trois catégories selon la méthode de construction du classificateur.
①Méthode de correspondance
La méthode de correspondance vise à construire un classificateur pour les classes invisibles grâce à la correspondance entre un classificateur binaire un-à-un pour chaque classe et son prototype de classe correspondant. Chaque classe n'a qu'un seul prototype correspondant dans l'espace sémantique. Ce prototype peut donc être considéré comme la « représentation » de la classe. Dans le même temps, dans l'espace des fonctionnalités, pour chaque catégorie, il existe un classificateur binaire un-à-un correspondant, qui peut également être considéré comme la « représentation » de la catégorie. Les méthodes de correspondance visent à apprendre la fonction de correspondance entre ces deux « représentations ».
②Méthode Relationship
vise à construire un classificateur de classes invisibles basé sur les relations inter-classes et intra-classes des classes invisibles. Dans l'espace des fonctionnalités, un classificateur binaire un à un des classes vues peut être appris à l'aide des données disponibles. Dans le même temps, la relation entre les classes visibles et invisibles peut être obtenue en calculant la relation entre les prototypes correspondants.
③Méthode de composition
La méthode de composition décrit l'idée de construire un classificateur pour une classe invisible en combinant des classificateurs pour les éléments de base qui constituent la classe.
Dans les méthodes de composition, on considère qu'il existe une liste d'"éléments de base" qui composent la classe. Chaque point de données des classes visibles et invisibles est une combinaison de ces éléments de base. Reflété dans l'espace sémantique, on considère que chaque dimension représente un élément de base, et chaque prototype de classe représente la combinaison de ces éléments de base de la classe correspondante.
Chaque dimension du prototype de classe prend 1 ou 0, indiquant si la classe a des éléments correspondants. Ce type de méthode est donc principalement adapté à l’espace sémantique.
Méthodes basées sur les instances
Les méthodes basées sur les instances visent d'abord à obtenir des instances étiquetées de classes invisibles, puis à utiliser ces instances pour former un classificateur à tir nul. Selon les sources de ces instances, les méthodes basées sur les instances existantes peuvent être divisées en trois sous-catégories :
①Méthodes de projection
L'idée des méthodes de projection est de projeter des instances d'espace de fonctionnalités et des prototypes d'espace sémantique dans un espace partagé. space pour obtenir une instance marquée d’une classe invisible.
Il existe des instances de formation étiquetées dans l'espace de fonctionnalités appartenant à la classe visible. Parallèlement, il existe des prototypes de classes visibles et de classes invisibles dans l'espace sémantique. Les espaces de fonctionnalités et sémantiques sont des espaces réels, et les instances et les prototypes en sont des vecteurs. De ce point de vue, les prototypes peuvent également être considérés comme des instances étiquetées. Par conséquent, nous étiquetons les instances dans l’espace des fonctionnalités et l’espace sémantique.
②Méthodes d'emprunt d'instances
Ces méthodes permettent d'obtenir des instances étiquetées pour les classes invisibles en empruntant à des instances de formation. Les méthodes d'emprunt d'instances sont basées sur des similitudes entre les classes. Avec la connaissance de ces classes similaires, des instances appartenant à des classes invisibles peuvent être identifiées.
③Méthode de synthèse
La méthode de synthèse consiste à obtenir des instances étiquetées de classes invisibles en synthétisant des pseudo-instances en utilisant différentes stratégies. Pour synthétiser des pseudo-instances, on suppose que les instances de chaque classe suivent une certaine distribution. Premièrement, les paramètres de distribution des classes invisibles doivent être estimés. Ensuite, synthétisez les instances de la classe invisible.
Comme d'autres concepts, l'apprentissage zéro-shot a aussi ses limites. Voici quelques-uns des défis les plus courants lors de la mise en pratique de l’apprentissage sans tir.
1. Biais
Pendant la phase d'entraînement, le modèle ne peut accéder qu'aux données et aux étiquettes des classes visibles. Cela amène le modèle à prédire des échantillons de données de classes invisibles lors des tests en tant que classes visibles. Le problème de biais devient plus important si, lors des tests, le modèle est évalué sur des échantillons provenant de classes visibles et invisibles.
2. Transfert de domaine
Les modèles d'apprentissage Zero-shot sont développés principalement pour étendre les modèles pré-entraînés à de nouvelles classes à mesure que ces données deviennent progressivement disponibles. Par conséquent, le problème de transfert de domaine est courant dans l’apprentissage zéro-shot. Le changement de domaine se produit lorsque la distribution statistique des données dans l'ensemble d'apprentissage et l'ensemble de test est significativement différente.
3. Problème du centre
Le problème du centre est lié à la malédiction de la dimensionnalité associée à la recherche du voisin le plus proche. Dans l’apprentissage sans tir, le problème central se pose pour deux raisons.
Les fonctionnalités d'entrée et sémantiques existent dans un espace de grande dimension. Lorsqu'un tel vecteur de grande dimension est projeté dans un espace de faible dimension, la variance est réduite, ce qui entraîne le regroupement des points cartographiés en un centre.
La régression Ridge, largement utilisée dans l'apprentissage zéro-shot, soulève des questions centrales. Cela peut conduire à des prédictions biaisées, c'est-à-dire que seules quelques classes sont prédites, quelle que soit la requête.
4. Perte d'informations
Lors de l'entraînement sur des classes visibles, le modèle apprend uniquement les attributs importants qui distinguent ces classes visibles. Même si certaines informations potentielles peuvent exister dans la classe visible, elles ne seront pas apprises si elles ne contribuent pas de manière significative au processus de prise de décision. Cependant, cette information est importante lors de la phase de test des classes invisibles. Cela entraîne une perte d’informations.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!