Maison > Périphériques technologiques > IA > le corps du texte

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de l'artiste d'effets spéciaux est là !

PHPz
Libérer: 2023-05-25 14:56:29
avant
654 Les gens l'ont consulté

Ce modèle de segmentation vidéo de la Southern University of Science and Technology peut suivre tout ce qui se trouve dans la vidéo.

Non seulement il peut « regarder », mais il peut aussi « couper ». Il lui est également facile de supprimer des individus de la vidéo.

En termes de fonctionnement, il vous suffit de quelques clics de souris.

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

L'artiste d'effets spéciaux semble avoir trouvé un sauveur après avoir vu la nouvelle, affirmant sans ambages que ce produit va changer les règles du jeu dans l'industrie CGI.

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

Ce modèle s'appelle TAM (Track Anything Model). Est-il similaire au nom du modèle de segmentation d'image de Meta, SAM ?

En effet, TAM étend SAM au domaine vidéo, éclairant l'arbre de compétences du Dynamic Object Tracking.

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

Le modèle de segmentation vidéo n'est en fait pas une nouvelle technologie, mais le modèle de segmentation traditionnel n'allège pas le travail humain.

Les données d'entraînement utilisées par ces modèles nécessitent toutes une annotation manuelle et doivent même être initialisées avec les paramètres de masque d'objets spécifiques avant utilisation.

L'émergence de SAM fournit une condition préalable pour résoudre ce problème - au moins les données d'initialisation n'ont plus besoin d'être obtenues manuellement.

Bien sûr, TAM n'utilise pas SAM image par image pour ensuite le superposer. La relation spatio-temporelle correspondante doit également être construite.

L'équipe a intégré SAM avec un module de mémoire appelé XMem.

Il vous suffit d'utiliser SAM pour générer les paramètres initiaux dans la première image, et XMem peut guider le processus de suivi ultérieur.

Il peut y avoir de nombreuses cibles de suivi, comme la scène de la rivière Qingming ci-dessous :

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

Même la scène change, cela n'affecte pas les performances de TAM :

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

Nous l'avons expérimenté et avons constaté que TAM adopte Interactive interface utilisateur, très simple et conviviale à utiliser.

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

En termes de puissance dure, l'effet de suivi de TAM est en effet bon :

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

Cependant, la précision de la fonction d'élimination dans certains détails doit être améliorée.

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

De SAM à TAM

Comme mentionné précédemment, TAM est implémenté sur la base de SAM en combinant les capacités de mémoire pour établir une corrélation spatio-temporelle.

Plus précisément, la première étape consiste à initialiser le modèle à l'aide des capacités de segmentation d'images statiques de SAM.

En un seul clic, SAM peut générer les paramètres de masque initiaux de l'objet cible, remplaçant ainsi le processus d'initialisation complexe des modèles de segmentation traditionnels.

Avec les paramètres initiaux, l'équipe peut le confier à XMem pour une formation d'intervention semi-manuelle, réduisant considérablement la charge de travail humaine.

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

Dans ce processus, certains résultats de prédiction manuelle seront utilisés pour comparer avec la sortie de XMem.

Dans le processus réel, au fil du temps, il devient de plus en plus difficile pour XMem d'obtenir des résultats de segmentation précis.

Lorsque l'écart entre les résultats et les attentes est trop important, l'étape de re-segmentation sera saisie, et cette étape est quand même complétée par SAM.

Après la réoptimisation de SAM, la plupart des résultats de sortie sont plus précis, mais certains nécessitent encore un ajustement manuel. Le processus de formation de

TAM est à peu près comme ceci, et les compétences d'élimination d'objets mentionnées au début sont formées en combinant TAM avec E2FGVI.

E2FGVI lui-même est également un outil d'élimination d'éléments vidéo Avec le soutien de la segmentation précise de TAM, son travail est plus ciblé.

Pour tester TAM, l'équipe l'a évalué à l'aide des ensembles de données DAVIS-16 et DAVIS-17.

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

Le ressenti intuitif est toujours très bon, et c'est vrai d'après les données.

Bien que TAM ne nécessite pas de réglage manuel des paramètres du masque, ses deux indicateurs J (similitude régionale) et F (précision des limites) sont très proches du modèle manuel.

Fonctionne même légèrement mieux que STM sur l'ensemble de données DAVIS-2017.

Parmi d'autres méthodes d'initialisation, les performances de SiamMask ne peuvent pas du tout être comparées à celles de TAM

Bien qu'une autre méthode appelée MiVOS soit plus performante que TAM, elle a évolué pendant 8 tours après ; tous ……

Black Technology de Southern Science and Technology : éliminez les personnages vidéo en un seul clic, le sauveur de lartiste deffets spéciaux est là !

Team Profile

TAM vient de l'Intelligence Visuelle et de la Perception de Laboratoire de l'Université des sciences et technologies du Sud (VIP).

Les axes de recherche du laboratoire incluent l’apprentissage multimodèle texte-image-son, la perception multimodèle, l’apprentissage par renforcement et la détection de défauts visuels.

Actuellement, l'équipe a publié plus de 30 articles et obtenu 5 brevets.

Le chef de l'équipe est le professeur agrégé Zheng Feng de l'Université des sciences et technologies du Sud. Il a obtenu un doctorat de l'Université de Sheffield au Royaume-Uni. l'Académie chinoise des sciences, Tencent Youtu et d'autres institutions. Il est entré à l'Université des sciences et technologies du Sud en 2018 et sera admis en 2021. Promu professeur associé.

Adresse papier :
https://arxiv.org/abs/2304.11968
Page GitHub :
https://github.com/gaomingqi/Track-Anything
Lien de référence : #🎜🎜 #
https://twitter.com/bilawalsidhu/status/1650710123399233536?s=20

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal