Bien qu'ImageNet ait depuis longtemps rempli sa mission historique, il reste un ensemble de données clé dans le domaine de la vision par ordinateur.
En 2016, la précision sota du modèle de classification formé sur ImageNet était encore inférieure à 80 % ; aujourd'hui, la précision de 80,1 % ne peut être obtenue que par une généralisation sans tir de modèles pré-entraînés à grande échelle.
Récemment, LAION a formé un tout nouveau modèle ViT-G/14 CLIP à l'aide du framework open source OpenCLIP Sur l'ensemble de données ImageNet, la précision du CLIP OpenAI original n'est que de 75,4 %, tandis que. OpenCLIP A atteint une précision de 80,1 % avec un tir zéro et a obtenu une récupération d'images avec un tir zéro de 74,9 % (Recall@5) sur MS COCO. Il s'agit également du modèle CLIP open source le plus puissant actuellement.
LAION, qui signifie Large-scale Artificial Intelligence Open Network, est une organisation à but non lucratif comptant des membres du monde entier qui vise à fournir des modèles d'apprentissage automatique à grande échelle, des ensembles de données et des codes associés pour le public. Ils prétendent être une véritable IA ouverte, 100 % à but non lucratif et 100 % gratuite.
Les amis intéressés peuvent mettre à jour le modèle CLIP dont ils disposent !
Adresse du modèle : https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k
Le modèle OpenCLIP est spécifique à chaque ensemble de données. Performance est indiqué dans le tableau ci-dessous.
Capacité Zero-shotDe manière générale, les performances sota des modèles de vision par ordinateur (CV) sur diverses tâches sont basées sur des données de formation dans un domaine spécifique et ne peuvent pas être généralisées à d'autres domaines ou tâches, ce qui entraîne une compréhension limitée des propriétés générales du monde visuel.
Le problème de généralisation est particulièrement important dans les domaines qui manquent de grandes quantités de données de formation.
Idéalement, le modèle de CV devrait apprendre le contenu sémantique de l'image plutôt que de trop se concentrer sur des étiquettes spécifiques dans l'ensemble de formation. Par exemple, pour une image d'un chien, le modèle doit être capable de comprendre qu'il y a un chien dans l'image, et de comprendre en outre qu'il y a des arbres en arrière-plan, qu'il fait jour, que le chien est sur l'herbe, etc. .
Mais les résultats actuels obtenus en utilisant la « formation de classification » sont exactement à l'opposé de ceux attendus. Le modèle apprend à pousser la représentation interne des chiens dans le même « espace vectoriel chien » et à pousser les chats dans le même « vecteur chat ». espace". Tous La réponse à la question est toujours binaire, c'est-à-dire si l'image peut être alignée avec une étiquette de classe.
Recycler un modèle de classification pour de nouvelles tâches est également une solution, mais la formation elle-même nécessite beaucoup de temps et d'investissement financier pour collecter des ensembles de données de classification et entraîner le modèle.
Heureusement, le modèle CLIP d'OpenAI est un modèle de classification très flexible et peut généralement être utilisé dans de nouvelles tâches de classification sans recyclage.
Pourquoi CLIP peut Zero-ShotContrastive Language-Image Pretraining (CLIP, Contrastive Language-Image Pretraining) est un modèle publié par OpenAI en 2021 principalement basé sur Transformer. CLIP se compose de deux modèles, un encodeur Transformer pour convertir le texte en intégration et un Visual Transformer (ViT) pour encoder des images.Les modèles de texte et d'image dans CLIP sont optimisés lors de la pré-formation pour aligner des textes et des images similaires dans l'espace vectoriel. Au cours du processus de formation, les paires image-texte dans les données sont rapprochées dans l'espace vectoriel, tandis que les vecteurs image et texte qui n'appartiennent pas à une paire sont séparés.
Il existe plusieurs différences entre CLIP et les modèles de classification générale :
Premièrement, OpenAI est formé à l'aide d'un très grand ensemble de données contenant 400 millions de paires texte-image explorées à partir d'Internet, et ses avantages. Les raisons sont :
1. La formation de CLIP ne nécessite que des « paires image-texte » et ne nécessite pas d'étiquettes de classe spécifiques, et ce type de données est très abondant dans le monde en ligne actuel centré sur les médias sociaux.
2. Les grands ensembles de données signifient la capacité de CLIP à comprendre les concepts textuels courants dans les images.
3. Le descripteur de texte contient souvent diverses fonctionnalités dans l'image, pas seulement une fonctionnalité de catégorie, ce qui signifie qu'une représentation d'image et de texte plus complète peut être établie.
Les avantages ci-dessus sont également un facteur clé dans la capacité de CLIP à établir Zero-shot. L'auteur de l'article a également comparé le modèle ResNet-101 et le modèle CLIP spécialement formés sur ImageNet, et l'a appliqué à d'autres ensembles de données dérivés d'ImageNet, comme indiqué ci-dessous pour la comparaison des performances.
On peut voir que bien que ResNet-101 soit formé sur ImageNet, ses performances sur des ensembles de données similaires sont bien pires que les performances de CLIP sur la même tâche.
Lors de l'application du modèle ResNet à d'autres domaines, une méthode courante est la « sonde linéaire », ce qui signifie saisir les caractéristiques apprises dans les dernières couches du modèle ResNet dans un classificateur linéaire, puis cibler un ensemble de données spécifique pour un réglage fin. .
Dans l'article CLIP, la détection linéaire ResNet-50 est comparée au CLIP zéro tir. La conclusion est que dans le même scénario, le CLIP zéro tir fonctionne mieux que le ResNet-50 dans plusieurs tâches.
Cependant, il convient de noter que Zero-shot ne surpasse pas la détection linéaire lorsqu'il reçoit davantage d'échantillons d'entraînement.
Comme vous pouvez le savoir dans la description ci-dessus, l'encodeur d'image et de texte peut créer un vecteur à 512 dimensions pour mapper l'image d'entrée et l'entrée de texte sur le même espace vectoriel.
Utiliser CLIP pour la classification zéro signifie mettre les informations de catégorie dans des phrases de texte.
Par exemple, si vous saisissez une image et souhaitez déterminer si sa catégorie est une voiture, un oiseau ou un chat, vous pouvez créer trois chaînes de texte pour représenter les catégories :
T1 représente une voiture : une photo d'un voiture
T2 représente un oiseau : une photo d'un oiseau
T3 représente un chat : une photo d'un chat
Entrez la description de la catégorie dans l'encodeur de texte et vous pourrez obtenir un vecteur qui peut représenter la catégorie.
Supposons que l'entrée soit une photo d'un chat. Utilisez le modèle ViT pour l'encoder. Après avoir obtenu le vecteur d'image, calculez la distance cosinusoïdale entre celui-ci et le vecteur de catégorie comme similarité avec T3. signifie que la catégorie de l'image appartient au chat.
Comme vous pouvez le constater, l'étiquette de catégorie n'est pas un simple mot, mais est réécrite en une phrase basée sur le format du modèle "une photo d'une {étiquette}", qui peut être étendue sans formation Prédiction de classe restreinte.
Dans l'expérience, l'utilisation de ce modèle d'invite a amélioré la précision de la classification d'ImageNet de 1,3 points de pourcentage. Cependant, le modèle d'invite n'améliore pas toujours les performances. En utilisation réelle, il doit être testé sur la base de différents ensembles de données.
Il est également très facile d'utiliser rapidement CLIP pour la classification zéro-shot. L'auteur a sélectionné l'ensemble de données frgfm/imagenette dans Hugging Face à titre de démonstration. L'ensemble de données contient 10 étiquettes, et toutes sont enregistrées sous forme d'entiers. valeurs.
L'utilisation de CLIP pour la classification nécessite de convertir les étiquettes de valeur entière en contenu texte correspondant.
Avant de calculer directement la similarité entre les tags et les photos, vous devez initialiser le modèle CLIP, qui peut être implémenté à l'aide du CLIP trouvé via les transformateurs Hugging Face.
Le transformateur de texte ne peut pas lire le texte directement, mais nécessite un ensemble de valeurs entières appelées ID de jeton (ou input_ID), où chaque entier unique représente un mot ou un sous-mot (c'est-à-dire un jeton).
Entrez le tenseur converti dans le transformateur de texte pour obtenir l'intégration du texte de l'étiquette
Notez que la sortie vectorielle par CLIP n'a pas encore été normalisée et que la similarité obtenue après multiplication de points est Les résultats sont inexacte.
Vous pouvez désormais sélectionner une image dans l'ensemble de données à tester et obtenir le vecteur d'image après le même processus de traitement.
Après avoir converti l'image en un vecteur de dimensions (1, 3, 224, 224), saisissez-la dans le modèle pour obtenir l'intégration
L'étape suivante consiste à calculer l'intégration de l'image et les dix dans l'ensemble de données La similarité du produit scalaire entre les intégrations de texte d'étiquette, celle avec le score le plus élevé est la catégorie prédite.
Le résultat donné par le modèle est un lecteur de cassettes. Après avoir exécuté l'ensemble des données à plusieurs reprises, nous pouvons obtenir une précision de 98,7%
En plus de la classification zéro tir. , la recherche multimodale, la détection de cibles et les modèles génératifs tels que Dall-E et Stable disusion d'OpenAI, CLIP ouvre une nouvelle porte à la vision par ordinateur.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!