Le classique de détection tant attendu a une autre vague d'attaques - YOLOv5. Parmi eux, YOLOv5 ne dispose pas de fichiers complets. Le plus important maintenant est de comprendre YOLOv4, qui bénéficiera beaucoup dans le domaine de la détection de cibles et peut être fortement amélioré dans certains scénarios. Aujourd'hui, nous analyserons YOLOv4 pour vous. Dans le prochain numéro, nous nous entraînerons à déployer YOLOv5 sur les téléphones Apple ou à le détecter en temps réel via la caméra du terminal !
Il existe un grand nombre de fonctionnalités qui sont considérées pour améliorer la précision des réseaux de neurones convolutifs (CNN). Les combinaisons de ces caractéristiques doivent être testées pratiquement sur de grands ensembles de données et les résultats théoriquement validés. Certaines fonctions fonctionnent uniquement sur certains modèles, sur certains problèmes ou sur de petits ensembles de données ; tandis que d'autres fonctions, telles que la normalisation par lots et les jointures résiduelles, fonctionnent sur la plupart des modèles, tâches et ensembles de données. Cet article suppose que ces caractéristiques communes incluent les connexions résiduelles pondérées (WRC), les connexions entre étapes (CSP), la normalisation entre mini-lots (CMbN), l'entraînement auto-adversatif (SAT) et l'activation de Mish. Cet article utilise de nouvelles fonctionnalités : WRC, CSP, CMbN, SAT, activation d'erreur, augmentation des données mosaïque, CMbN, régularisation DropBlock et perte CIoU, et en combine certaines pour obtenir l'effet suivant : 43,5 % AP (65,7 % AP50), en utilisant Ensemble de données MS+COCO, vitesse en temps réel de 65 FPS sur Tesla V100.
Amélioration des données en mosaïque
Mettre quatre images en une seule image pour la formation équivaut à augmenter le mini-lot déguisé. Il s'agit d'une amélioration basée sur CutMix mélangeant deux images
Entraînement auto-adversatif
Sur une image, laissez le réseau neuronal mettre à jour l'image à l'envers et apporter des modifications et des perturbations à l'image. photo. Entraînez-vous ensuite sur cette image. Cette méthode est la principale méthode de stylisation d'image, permettant au réseau de mettre à jour l'image de manière inversée pour styliser l'image.
L'entraînement auto-adversatif (SAT) représente également une nouvelle technique d'augmentation des données qui fonctionne en 2 étapes avant et arrière. Dans la première étape, le réseau neuronal modifie l'image originale au lieu des poids du réseau. une attaque adverse contre lui-même, modifiant l'image originale pour créer la tromperie selon laquelle il n'y a pas d'objet souhaité sur l'image. Dans la 2ème étape, le réseau neuronal est entraîné à détecter un objet sur cette image modifiée de la manière normale.
.
Cross mini-batch Normal
CmBN représente la version modifiée du CBN, comme le montre la figure ci-dessous, définie comme Cross mini-Batch Normalization (CMBN). Cela collecte uniquement des statistiques entre les plus petits lots d'un même lot.
modifier SAM
De l'attention espace par espace de SAM à l'attention point par point;modification du PAN, en changeant le canal de l'ajout (ajouter) à concat.
En prenant la méthode d'amélioration des données comme exemple, bien qu'elle augmente le temps de formation, elle peut améliorer les performances et la robustesse de la généralisation du modèle. Par exemple, les méthodes d'amélioration courantes suivantes :
On peut voir à travers des expériences qu'il utilise de nombreuses astuces. Le kaléidoscope de détection de cible le plus puissant, le tableau suivant est une expérience sur le. réseau de classification :
CSPResNeXt-50 classifier précision
CSPDarknet-53 classifier précision
Sur le réseau de détection YOLOv4, quatre pertes (GIoU, CIoU, DIoU, MSE), lissage des étiquettes, apprentissage du cosinus taux, sélection d'hyperparamètres d'algorithme génétique, amélioration des données Mosaic et autres méthodes. Le tableau suivant présente les résultats de l'expérience d'ablation sur le réseau de détection YOLOv4 :
CSPResNeXt50-PANet-SPP, 512x512
Utilisation de différents modèles de poids d'entraînement pour l'entraînement :
Résultats de différentes tailles de mini-lots :
Enfin, la comparaison des résultats sur l'ensemble de données COCO sur trois séries différentes de GPU, Maxwell, Pascal et Volta :
Le Ce qui est le plus excitant, c'est que dans l'ensemble de données COCO, la comparaison (vitesse et précision) avec d'autres frameworks :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!