AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
基於熱傳導的視覺表徵模型 vHeat。將圖片特徵塊視為熱源,並透過預測熱傳導率、以物理熱傳導原理提取影像特徵。相較於基於Attention機制的視覺模型, vHeat 同時兼顧了:計算複雜度(1.5次方)、全局感受野、物理可解釋性。
當使用vHeat-base+%E6%A8%A1%E5%9E%8B進行高解析度影像輸入時,透過put、GPU顯存佔用、flops分別是Swin-base+%E6%A8%A1 %E5%9E%8B的3倍、1/4、3/4。在影像分類、目標偵測、語意/實例分割等基礎下游任務上達到了先進的效能表現。#Overview
目前最主流的兩類基礎視覺模型是CNN和視覺Transformer(ViT)。然而,CNN的表現表現受限於局部感受野和固定的捲積核算子。 ViT 具有全局依賴關係的表徵能力,然而代價是高昂的二次範數計算複雜度。我們認為 CNN 和 ViT 的捲積算子和自註意力算子都是特徵內部的像素傳遞過程,分別是一種訊息傳遞的形式,這也讓我們聯想到了物理領域的熱傳導。於是我們根據熱傳導方程,將視覺語意的空間傳播和物理熱傳導建立聯繫,提出了一種1.5 次方計算複雜度的視覺傳導算子(Heat Conduction Operator, HCO),進而設計出了一種兼具低複雜度、全局感受野、物理可解釋性的視覺表徵模型vHeat。 HCO 與 self-attention 的計算形式與複雜度比較如下圖所示。實驗證明了 vHeat 在各種視覺任務中表現優異。例如,vHeat-T 在 ImageNet-1K 上達到了 82.2% 的分類準確率,比 Swin-T 高 0.9%,比 ViM-S 高 1.7%。效能之外,vHeat 還擁有高推理速度、低 GPU 顯存佔用和低 FLOPs 這些優點。在輸入影像解析度較高時,base 規模的 vHeat 模型相比於 Swin 只多吞吐量1/3、1/4 的GPU顯存佔用和 3/4 的 FLOPs。方法介紹
以表示點在t 時刻下的溫度,物理熱傳導方程式為,其中k>0,表示熱擴散率。給定 t=0 時刻下的初始條件,此熱傳導方程式可以採用傅立葉變換求得通解,表示如下:
其中和分別表示傅立葉轉換和逆傅立葉變換, 表示頻域空間座標。
我們利用HCO 來實現視覺語意中的熱傳導,先將物理熱傳導方程中的擴展為多通道特徵,將視為輸入,視為輸出,HCO 模擬了離散化形式的熱傳導通解,如下公式所示:
其中和分別表示二維離散餘弦變換和逆變換, HCO 的結構如下圖(a) 所示。
此外,我們認為不同影像內容應該對應不同的熱擴散率,考慮到的輸出在頻域中,我們根據頻率值決定熱擴散率,。由於頻域中不同位置表示了不同的頻率值,我們提出了頻率值編碼(Frequency Value Embeddings, FVEs)來表示頻率值訊息,與ViT 中的絕對位置編碼的實現和作用類似,並用FVEs 對熱擴散率k 進行預測,使得HCO 可以進行非均勻、自適應的傳導,如下圖所示。
vHeat 採用多層級的結構實現,如下圖所示,整體框架與主流的視覺模型類似,其中的 HCO layer 如圖 2 (b) 所示。
實驗結果
#ImageNet分類
下游任務
在COCO 資料集上, vHeat 也擁有效能優勢:在fine-tune 12 epochs 的情況下,vHeat-T/S/B 分別達到45.1/46.8/47.7 mAP,超過了Swin-T/S/B 達2.4/2.0/0.8 mAP,超過ConvNeXt-T/S/B 達0.9/1.4/0.7 mAP。在 ADE20K 資料集上,vHeat-T/S/B 分別達到 46.9/49.0/49.6 mIoU,相較於 Swin 和 ConvNeXt 依然擁有較好的效能表現。這些結果驗證了 vHeat 在視覺下游實驗中完全 work,展現出了能平替主流基礎視覺模型的潛力。
分析實驗
有效感受野
以上是物理傳熱啟發的視覺表徵模型vHeat來了,嘗試突破注意力機制,兼具低複雜度、全局感受野的詳細內容。更多資訊請關注PHP中文網其他相關文章!