La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Email de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Comment briser le mécanisme d'attention de Transformer ? L'Université de l'Académie chinoise des sciences et le Laboratoire national de Pengcheng ont proposé un modèle de représentation visuelle vHeat basé sur la conduction thermique. Traitez le bloc de caractéristiques de l'image comme une source de chaleur et extrayez les caractéristiques de l'image en prédisant la conductivité thermique et en vous basant sur le conduction thermique physiqueprincipe. Par rapport au modèle visuel basé sur le mécanisme Attention, vHeat prend en compte à la fois : la complexité informatique (puissance 1,5), le champ récepteur global et l'interprétabilité physique.
Lorsque vous utilisez vHeat-base+%E6%A8%A1%E5%9E%8B pour une entrée d'image haute résolution, le put, l'utilisation de la mémoire GPU et les flops sont respectivement Swin-base+%E6%A8%A1%E5%9E . 3 fois, 1/4, 3/4 de %8B. Il a atteint des performances avancées sur les tâches de base en aval telles que la classification d'images, la détection de cibles et la segmentation sémantique/instance.Vue d'ensemble
Les deux modèles visuels de base les plus courants actuellement sont CNN et Visual Transformer (ViT). Cependant, les performances de CNN sont limitées par les champs récepteurs locaux et les opérateurs de noyau à convolution fixes. ViT a la capacité de représenter des dépendances globales, mais au prix d’une complexité informatique élevée en normes quadratiques. Nous pensons que les opérateurs de convolution et les opérateurs d'auto-attention de CNN et ViT sont tous deux des processus de transfert de pixels au sein de caractéristiques, qui sont respectivement une forme de transfert d'informations, qui nous rappelle également la conduction thermique dans le domaine physique. Ainsi, sur la base de l'équation de conduction thermique, nous avons relié la propagation spatiale de la sémantique visuelle à la conduction physique de la chaleur, proposé un opérateur de conduction visuelle (Heat Conduction Operator, HCO) avec une complexité de calcul de 1,5 puissance, puis conçu un opérateur de conduction thermique avec une faible représentation visuelle. modélisez vHeat pour la complexité, le champ récepteur global et l’interprétabilité physique. Le formulaire de calcul et la comparaison de la complexité entre HCO et l'auto-attention sont présentés dans la figure ci-dessous. Des expériences ont prouvé que vHeat fonctionne bien dans diverses tâches visuelles. Par exemple, vHeat-T atteint une précision de classification de 82,2 % sur ImageNet-1K, soit 0,9 % de plus que Swin-T et 1,7 % de plus que ViM-S. En plus des performances, vHeat présente également les avantages d'une vitesse d'inférence élevée, d'une faible utilisation de la mémoire GPU et de faibles FLOP. Lorsque la résolution de l'image d'entrée est élevée, le modèle vHeat à l'échelle de base n'a qu'un tiers de débit en plus, un quart d'utilisation de la mémoire GPU et 3/4 FLOP par rapport à Swin.Introduction à la méthode
Utilisezpour représenter la température du point au temps t. L'équation physique de conduction thermique est , où k>0 représente la diffusivité thermique. Étant donné les conditions initiales au temps t=0, l'équation de conduction thermique peut être résolue à l'aide de la transformée de Fourier, qui s'exprime comme suit :
où et représentent respectivement la transformée de Fourier et la transformée de Fourier inverse, et représente les coordonnées spatiales du domaine fréquentiel.
Nous utilisons HCO pour implémenter la conduction thermique dans la sémantique visuelle. Tout d'abord, nous étendons dans l'équation physique de conduction thermique en une fonctionnalité multicanal . Nous considérons comme une entrée et comme une sortie. sous forme discrétisée, comme suit La formule est représentée :
où et représentent respectivement la transformée en cosinus discrète bidimensionnelle et la transformée inverse. La structure de HCO est représentée dans la figure (a) ci-dessous.
De plus, nous pensons que différents contenus d'image doivent correspondre à différentes diffusivités thermiques. Considérant que la sortie de est dans le domaine fréquentiel, nous déterminons la diffusivité thermique en fonction de la valeur de fréquence, . Étant donné que différentes positions dans le domaine fréquentiel représentent différentes valeurs de fréquence, nous proposons des incorporations de valeurs de fréquence (FVE) pour représenter les informations sur les valeurs de fréquence, ce qui est similaire à la mise en œuvre et à la fonction du codage de position absolue dans ViT, et utilisons les FVE pour contrôler la diffusion de chaleur. le taux k est prédit afin que HCO puisse effectuer une conduction non uniforme et adaptative, comme le montre la figure ci-dessous.
vHeat est implémenté à l'aide d'une structure à plusieurs niveaux, comme le montre la figure ci-dessous. Le cadre global est similaire au modèle visuel traditionnel, et la couche HCO est illustrée dans la figure 2 (b).
Résultats expérimentaux
Classification ImageNet
Tâches en aval
Sur l'ensemble de données COCO, vHeat présente également un avantage en termes de performances : dans le cas d'un réglage fin de 12 époques, vHeat-T/S/B atteint respectivement 45,1/46,8/47,7 mAP, dépassant Il dépasse Swin-T/S/B pour atteindre 2,4/2,0/0,8 mAP, et dépasse ConvNeXt-T/S/B pour atteindre 0,9/1,4/0,7 mAP. Sur l'ensemble de données ADE20K, vHeat-T/S/B a atteint respectivement 46,9/49,0/49,6 mIoU, ce qui offre toujours de meilleures performances que Swin et ConvNeXt. Ces résultats vérifient que vHeat fonctionne pleinement dans les expériences visuelles en aval, démontrant le potentiel de remplacer les modèles visuels de base traditionnels.
Expérience d'analyse
Champ récepteur efficace
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!