Le domaine de la détection de cibles a marqué le début de nouveaux progrès -
Grounding DINO 1.5, produit par l'équipe de l'IDEA Research Institute, peut réaliser une reconnaissance en temps réel du côté de l'appareil.
Ces progrès ont été présentés par le magnat de l'IA Shun Xiangyang, qui suit généralement un rythme d'un an.
Cette version comporte principalement deux versions : Pro et Edge. La version Pro est plus puissante et la version Edge est plus rapide.
Il conserve toujours la version précédenteGrounding DINOStructure à double encodeur et décodeur unique Sur cette base, la taille du modèle est étendue en combinant une épine dorsale visuelle plus grande, et un corpus riche est obtenu en utilisant plus de 20 millions de données Grounding. améliore considérablement la précision et la vitesse de détection et est optimisé pour différents scénarios d'application via les versions Pro et Edge.
Dans la construction d'ensembles de données à grande échelle et les scénarios de demande de haute précision, la version Pro fonctionne parfaitement, tandis que la version Edge démontre ses avantages uniques dans le déploiement final.
Jetons-les un coup d’œil séparément.
Grounding+DINO+1.5 La version Pro atteint le niveau SOTA actuel de détection de cible ouverte, fonctionne bien dans la compréhension sémantique des images et du texte, et peut détecter et identifier rapidement et précisément les images en fonction de le langage invite l'objet cible dans .
△Comparaison des performances de transfert zéro dans les benchmarks COCO, LVIS, ODinW35 et ODinW13
La compréhension au niveau de l'objet est la base perceptuelle de l'interaction entre les machines et le monde physique, et c'est également la solution aux multiples -problème d'illusion modale de grand modèle (VLM) Problèmes de base qui ne peuvent être contournés.
En tant que modèle de détection d'ensemble ouvert le plus performant actuel, Grounding DINO 1.5 Pro peut aider à construire des données multimodales massives avec des informations sémantiques au niveau de l'objet, aidant ainsi efficacement la formation de grands modèles multimodaux.
Il peut faire correspondre avec précision des phrases dans de longues descriptions de texte avec des objets ou des scènes spécifiques dans des images pour améliorer la compréhension de l'IA de la relation entre le contenu visuel et le texte
De plus, dans d'autres applications qui doivent traiter de grandes quantités de données complexes Dans des domaines tels que le commerce électronique, les médias sociaux et la conduite autonome, Grounding DINO 1.5 Pro présente également une forte valeur applicative.
Par exemple, dans le domaine du e-commerce, ce modèle peut permettre d'annoter rapidement les images de produits et d'optimiser les systèmes de recherche et de recommandation. Dans les médias sociaux, ce modèle peut automatiquement étiqueter les images téléchargées par les utilisateurs, améliorant ainsi l'efficacité de l'examen et de la classification du contenu.
De plus, la version Pro prend également en charge le réglage fin des données industrielles pour répondre aux besoins spécifiques de diverses industries, obtenant ainsi des résultats d'identification plus précis.
Afin de vérifier l'amélioration apportée par le réglage fin, l'équipe CVR a mené des expériences comparatives sur des ensembles de données publiques telles que LVIS qui sont courantes dans le champ visuel.
Comme le montrent les deux dernières lignes, Grounding DINO 1.5 Pro a été affiné et a montré des améliorations substantielles des performances sur plusieurs ensembles de données.
Et il convient également très bien à de nombreuses scènes pratiques.
Comme dans le domaine médical, le Grounding DINO 1.5 Pro affiné peut identifier plus précisément les lésions dans les images médicales, aider les médecins dans le diagnostic et améliorer l'efficacité du diagnostic et du traitement.
Dans le secteur de la vente au détail, des modèles affinés peuvent identifier et classer les marchandises avec plus de précision, facilitant ainsi la gestion des stocks et l'analyse des ventes.
En termes de déploiement côté client, la version Grounding DINO 1.5 Edge a été déployée avec succès sur la carte NVIDIA Orin NX grâce à l'optimisation de la structure du modèle et a atteint une vitesse d'inférence de 10FPS.
De plus, cela permet au robot d'interagir avec l'environnement ouvert.
Dans le domaine de la conduite autonome, Grounding DINO 1.5 Edge pourra fonctionner en temps réel sur les véhicules du futur pour obtenir une détection efficace des cibles et une perception de l'environnement, améliorant ainsi la sécurité de conduite. En matière de sécurité intelligente, ce modèle peut traiter rapidement les données de vidéosurveillance, détecter les comportements anormaux en temps réel et améliorer la vitesse de réponse de la surveillance de sécurité.
À l'avenir, la vitesse d'exécution de Grounding DINO 1.5 Edge devrait augmenter jusqu'à 20 à 30 FPS, élargissant encore son champ d'application dans le domaine de l'informatique de pointe.
Lien papier :
https://arxiv.org/abs/2405.10300
Lien d'essai du projet :
https://deepdataspace.com/playground/grounding_dino
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!