物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野-人工智慧-PHP中文網

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

WBOY

發布： 2024-06-06 17:28:46

原創

574 人瀏覽過

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

##本文作者為VMamba的原班人馬，其中第一作者王兆植是中國科學院大學和鵬城實驗室的2022級聯合培養博士生，共同一作劉悅是中國科學院大學2021級直博生。他們的主要研究方向是視覺模型設計和自我監督學習。

如何突破 Transformer 的 Attention 機制？中國科學院大學與鵬城國家實驗室提出

基於熱傳導的視覺表徵模型 vHeat。將圖片特徵塊視為熱源，並透過預測熱傳導率、以物理熱傳導原理提取影像特徵。相較於基於Attention機制的視覺模型， vHeat 同時兼顧了：計算複雜度（1.5次方）、全局感受野、物理可解釋性。

當使用vHeat-base+%E6%A8%A1%E5%9E%8B進行高解析度影像輸入時，透過put、GPU顯存佔用、flops分別是Swin-base+%E6%A8%A1 %E5%9E%8B的3倍、1/4、3/4。在影像分類、目標偵測、語意/實例分割等基礎下游任務上達到了先進的效能表現。

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

論文網址: https://arxiv.org/pdf/2405.16555
程式碼位址: https://github.com/MzeroMiko/vHeat
論文標題：vHeat: Building Vision Models upon Heat Conduction

#Overview

目前最主流的兩類基礎視覺模型是CNN和視覺Transformer（ViT）。然而，CNN的表現表現受限於局部感受野和固定的捲積核算子。 ViT 具有全局依賴關係的表徵能力，然而代價是高昂的二次範數計算複雜度。我們認為 CNN 和 ViT 的捲積算子和自註意力算子都是特徵內部的像素傳遞過程，分別是一種訊息傳遞的形式，這也讓我們聯想到了物理領域的熱傳導。於是我們根據熱傳導方程，將視覺語意的空間傳播和物理熱傳導建立聯繫，提出了一種1.5 次方計算複雜度的視覺傳導算子（Heat Conduction Operator, HCO），進而設計出了一種兼具低複雜度、全局感受野、物理可解釋性的視覺表徵模型vHeat。 HCO 與 self-attention 的計算形式與複雜度比較如下圖所示。實驗證明了 vHeat 在各種視覺任務中表現優異。例如，vHeat-T 在 ImageNet-1K 上達到了 82.2% 的分類準確率，比 Swin-T 高 0.9%，比 ViM-S 高 1.7%。效能之外，vHeat 還擁有高推理速度、低 GPU 顯存佔用和低 FLOPs 這些優點。在輸入影像解析度較高時，base 規模的 vHeat 模型相比於 Swin 只多吞吐量1/3、1/4 的GPU顯存佔用和 3/4 的 FLOPs。

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

方法介紹

以

表示點物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野在t 時刻下的溫度，物理熱傳導方程式為，其中k>0，表示熱擴散率。給定 t=0 時刻下的初始條件，此熱傳導方程式可以採用傅立葉變換求得通解，表示如下：物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

其中物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野和分別表示傅立葉轉換和逆傅立葉變換，表示頻域空間座標。

我們利用HCO 來實現視覺語意中的熱傳導，先將物理熱傳導方程中的物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野擴展為多通道特徵，將視為輸入，視為輸出，HCO 模擬了離散化形式的熱傳導通解，如下公式所示：

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

其中物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野和分別表示二維離散餘弦變換和逆變換， HCO 的結構如下圖(a) 所示。

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

此外，我們認為不同影像內容應該對應不同的熱擴散率，考慮到物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野的輸出在頻域中，我們根據頻率值決定熱擴散率，。由於頻域中不同位置表示了不同的頻率值，我們提出了頻率值編碼（Frequency Value Embeddings, FVEs）來表示頻率值訊息，與ViT 中的絕對位置編碼的實現和作用類似，並用FVEs 對熱擴散率k 進行預測，使得HCO 可以進行非均勻、自適應的傳導，如下圖所示。

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

vHeat 採用多層級的結構實現，如下圖所示，整體框架與主流的視覺模型類似，其中的 HCO layer 如圖 2 (b) 所示。

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

實驗結果

#ImageNet分類

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

透過比較實驗結果不難看出，在相似的參數量和FLOPs 下:

vHeat-T 取得了 82.2 % 的性能，超過DeiT-S 達2.4%、Vim-S 達1.7%、Swin-T 達0.9%。
vHeat-S 取得了 83.6% 的效能，超過 Swin-S 達 0.6%、ConvNeXt-S 達 0.5%。
vHeat-B 取得了 83.9% 的效能，超過 DeiT-B 達 2.1%、Swin-B 達 0.4%。

同時，由於vHeat 的O (N^1.5) 低複雜度和可並行計算性，推理吞吐量相較於ViTs、SSM模型有明顯的優勢，例如vHeat-T 的推理吞吐量為1514 img/s，比Swin-T 高 22%，比Vim-S 高87% ，也比ConvNeXt-T 高26%，同時有更好的效能。

下游任務

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

在COCO 資料集上， vHeat 也擁有效能優勢：在fine-tune 12 epochs 的情況下，vHeat-T/S/B 分別達到45.1/46.8/47.7 mAP，超過了Swin-T/S/B 達2.4/2.0/0.8 mAP，超過ConvNeXt-T/S/B 達0.9/1.4/0.7 mAP。在 ADE20K 資料集上，vHeat-T/S/B 分別達到 46.9/49.0/49.6 mIoU，相較於 Swin 和 ConvNeXt 依然擁有較好的效能表現。這些結果驗證了 vHeat 在視覺下游實驗中完全 work，展現出了能平替主流基礎視覺模型的潛力。

分析實驗

有效感受野

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

vHeat 擁有全域的有效感受野，這些視覺化對比的主流模型中只有DeiT 和HiViT 也具備這個特性。但值得注意的是，DeiT 和 HiViT 的代價是平方級的複雜度，而 vHeat 是 1.5 次方級的複雜度。

計算代價

物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野

#上圖從左到右分別為vHeat-B 與其他base 規模下的ViT-based 模型的推理吞吐量/ GPU 顯存佔用/ 計算量FLOPs 比較。可以明顯看出，由於O (N^1.5) 的計算複雜度，vHeat 相比於對比的模型有更快的推理速度、更低的顯存佔用以及更少的FLOPs，並且在圖像分辨率越大時，優勢會更為明顯。在輸入影像為768*768 解析度時，vHeat-B 的推理吞吐量為Swin-B 的3 倍左右，GPU 顯存佔用比Swin-B 低74%， FLOPs 比Swin-B 低 28%。 vHeat 與 ViT-based 模型的計算代價對比，展現其處理高解析度影像的優秀潛質。

以上是物理傳熱啟發的視覺表徵模型vHeat來了，嘗試突破注意力機制，兼具低複雜度、全局感受野的詳細內容。更多資訊請關注PHP中文網其他相關文章！