Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme d'attention et présente à la fois une faible complexité et un champ de réception global.-IA-php.cn

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Email de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'auteur de cet article est l'équipe originale de VMamba, parmi laquelle le premier auteur Wang Zhaozhi est co-diplômé en 2022 de l'Université de Liu Yue, doctorante et co-auteure de l'Académie chinoise des sciences et du laboratoire Pengcheng, est candidate directe au doctorat en 2021 à l'Université de l'Académie chinoise des sciences. Leurs principaux axes de recherche sont la conception de modèles visuels et l’apprentissage auto-supervisé.

Comment briser le mécanisme d'attention de Transformer ? L'Université de l'Académie chinoise des sciences et le Laboratoire national de Pengcheng ont proposé un modèle de représentation visuelle vHeat basé sur la conduction thermique. Traitez le bloc de caractéristiques de l'image comme une source de chaleur et extrayez les caractéristiques de l'image en prédisant la conductivité thermique et en vous basant sur le conduction thermique physiqueprincipe. Par rapport au modèle visuel basé sur le mécanisme Attention, vHeat prend en compte à la fois : la complexité informatique (puissance 1,5), le champ récepteur global et l'interprétabilité physique.

Lorsque vous utilisez vHeat-base+%E6%A8%A1%E5%9E%8B pour une entrée d'image haute résolution, le put, l'utilisation de la mémoire GPU et les flops sont respectivement Swin-base+%E6%A8%A1%E5%9E . 3 fois, 1/4, 3/4 de %8B. Il a atteint des performances avancées sur les tâches de base en aval telles que la classification d'images, la détection de cibles et la segmentation sémantique/instance.

Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global.

Adresse du papier : https://arxiv.org/pdf/2405.16555
Adresse du code : https://github.com/MzeroMiko/vHeat
Titre du papier : vHeat : Building Vision Modèles par conduction thermique

Vue d'ensemble

Les deux modèles visuels de base les plus courants actuellement sont CNN et Visual Transformer (ViT). Cependant, les performances de CNN sont limitées par les champs récepteurs locaux et les opérateurs de noyau à convolution fixes. ViT a la capacité de représenter des dépendances globales, mais au prix d’une complexité informatique élevée en normes quadratiques. Nous pensons que les opérateurs de convolution et les opérateurs d'auto-attention de CNN et ViT sont tous deux des processus de transfert de pixels au sein de caractéristiques, qui sont respectivement une forme de transfert d'informations, qui nous rappelle également la conduction thermique dans le domaine physique. Ainsi, sur la base de l'équation de conduction thermique, nous avons relié la propagation spatiale de la sémantique visuelle à la conduction physique de la chaleur, proposé un opérateur de conduction visuelle (Heat Conduction Operator, HCO) avec une complexité de calcul de 1,5 puissance, puis conçu un opérateur de conduction thermique avec une faible représentation visuelle. modélisez vHeat pour la complexité, le champ récepteur global et l’interprétabilité physique. Le formulaire de calcul et la comparaison de la complexité entre HCO et l'auto-attention sont présentés dans la figure ci-dessous. Des expériences ont prouvé que vHeat fonctionne bien dans diverses tâches visuelles. Par exemple, vHeat-T atteint une précision de classification de 82,2 % sur ImageNet-1K, soit 0,9 % de plus que Swin-T et 1,7 % de plus que ViM-S. En plus des performances, vHeat présente également les avantages d'une vitesse d'inférence élevée, d'une faible utilisation de la mémoire GPU et de faibles FLOP. Lorsque la résolution de l'image d'entrée est élevée, le modèle vHeat à l'échelle de base n'a qu'un tiers de débit en plus, un quart d'utilisation de la mémoire GPU et 3/4 FLOP par rapport à Swin.

Introduction à la méthode

Utilisez

pour représenter la température du point Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. au temps t. L'équation physique de conduction thermique est , où k>0 représente la diffusivité thermique. Étant donné les conditions initiales Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. au temps t=0, l'équation de conduction thermique peut être résolue à l'aide de la transformée de Fourier, qui s'exprime comme suit : Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global.

où Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. et représentent respectivement la transformée de Fourier et la transformée de Fourier inverse, et Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. représente les coordonnées spatiales du domaine fréquentiel.

Nous utilisons HCO pour implémenter la conduction thermique dans la sémantique visuelle. Tout d'abord, nous étendons Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. dans l'équation physique de conduction thermique en une fonctionnalité multicanal Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. . Nous considérons comme une entrée et comme une sortie. sous forme discrétisée, comme suit La formule est représentée :

De plus, nous pensons que différents contenus d'image doivent correspondre à différentes diffusivités thermiques. Considérant que la sortie de Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. est dans le domaine fréquentiel, nous déterminons la diffusivité thermique en fonction de la valeur de fréquence, Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. . Étant donné que différentes positions dans le domaine fréquentiel représentent différentes valeurs de fréquence, nous proposons des incorporations de valeurs de fréquence (FVE) pour représenter les informations sur les valeurs de fréquence, ce qui est similaire à la mise en œuvre et à la fonction du codage de position absolue dans ViT, et utilisons les FVE pour contrôler la diffusion de chaleur. le taux k est prédit afin que HCO puisse effectuer une conduction non uniforme et adaptative, comme le montre la figure ci-dessous.

vHeat est implémenté à l'aide d'une structure à plusieurs niveaux, comme le montre la figure ci-dessous. Le cadre global est similaire au modèle visuel traditionnel, et la couche HCO est illustrée dans la figure 2 (b).

Résultats expérimentaux

Classification ImageNet

En comparant les résultats expérimentaux, il est facile de voir que sous des paramètres et des FLOP similaires :

vHeat-T a réalisé une performance de 82,2%, dépassant DeiT-S de 2,4% et Vim-S de 1,7 %, Swin-T atteint 0,9 %.
vHeat-S a réalisé une performance de 83,6%, dépassant Swin-S de 0,6% et ConvNeXt-S de 0,5%.
vHeat-B a réalisé une performance de 83,9%, dépassant DeiT-B de 2,1% et Swin-B de 0,4%.

Dans le même temps, en raison de la faible complexité de vHeat O (N ^ 1,5) et du calcul parallèle, le débit d'inférence présente des avantages évidents par rapport aux modèles ViT et SSM, tels que le débit d'inférence de vHeat-T It. est 1514 img/s, soit 22% supérieur à Swin-T, 87% supérieur à Vim-S et 26% supérieur à ConvNeXt-T, tout en ayant de meilleures performances.

Tâches en aval

Sur l'ensemble de données COCO, vHeat présente également un avantage en termes de performances : dans le cas d'un réglage fin de 12 époques, vHeat-T/S/B atteint respectivement 45,1/46,8/47,7 mAP, dépassant Il dépasse Swin-T/S/B pour atteindre 2,4/2,0/0,8 mAP, et dépasse ConvNeXt-T/S/B pour atteindre 0,9/1,4/0,7 mAP. Sur l'ensemble de données ADE20K, vHeat-T/S/B a atteint respectivement 46,9/49,0/49,6 mIoU, ce qui offre toujours de meilleures performances que Swin et ConvNeXt. Ces résultats vérifient que vHeat fonctionne pleinement dans les expériences visuelles en aval, démontrant le potentiel de remplacer les modèles visuels de base traditionnels.

Expérience d'analyse

Champ récepteur efficace

vHeat a un champ récepteur efficace global Parmi les modèles traditionnels de comparaison visuelle, seuls DeiT et HiViT ont également cette fonctionnalité. Cependant, il convient de noter que le coût de DeiT et HiViT est un niveau de complexité carré, tandis que vHeat est un niveau de complexité de 1,5 puissance.

Coût de calcul

L'image ci-dessus de gauche à droite montre la comparaison du débit d'inférence/de l'utilisation de la mémoire GPU/des FLOP de calcul de vHeat-B et d'autres modèles basés sur ViT à l'échelle de base. On peut clairement voir qu'en raison de la complexité de calcul de O (N ^ 1,5), vHeat a une vitesse d'inférence plus rapide, une utilisation de la mémoire inférieure et moins de FLOP que les modèles contrastés, et lorsque la résolution de l'image est plus grande, les avantages seront plus évident. Lorsque l'image d'entrée a une résolution de 768*768, le débit d'inférence de vHeat-B est d'environ 3 fois celui de Swin-B, l'utilisation de la mémoire GPU est 74 % inférieure à celle de Swin-B et les FLOP sont 28 inférieur à celui de Swin-B %. La comparaison du coût de calcul des modèles basés sur vHeat et ViT démontre son excellent potentiel dans le traitement d'images haute résolution.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!