Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.-AI-php.cn

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

WBOY

Lepaskan： 2024-06-06 17:28:46

asal

574 orang telah melayarinya

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengarang artikel ini ialah pasukan asal VMamba, antaranya pengarang pertama Wang Zhaozhi adalah graduan bersama Universiti 2022 Pelajar Akademi Sains China dan Makmal Pengcheng dan pengarang bersama Liu Yue ialah calon PhD langsung 2021 di Universiti Akademi Sains China. Arah penyelidikan utama mereka ialah reka bentuk model visual dan pembelajaran diselia sendiri.

Bagaimana untuk menembusi mekanisme Perhatian Transformer? Akademi Sains Universiti China dan Makmal Kebangsaan Pengcheng mencadangkan model perwakilan visual vHeat berdasarkan pengaliran haba. Anggap blok ciri imej sebagai sumber haba, dan ekstrak ciri imej dengan meramalkan kekonduksian terma dan berdasarkan konduksi haba fizikalprinsip. Berbanding dengan model visual berdasarkan mekanisme Perhatian, vHeat mengambil kira pada masa yang sama: kerumitan pengiraan (kuasa 1.5), medan penerimaan global dan kebolehtafsiran fizikal.

Apabila menggunakan vHeat-base+%E6%A8%A1%E5%9E%8B untuk input imej resolusi tinggi, put, penggunaan memori GPU dan flop masing-masing adalah Swin-base+%E6%A8%A1%E5%9E . 3 kali, 1/4, 3/4 daripada %8B. Ia telah mencapai prestasi lanjutan pada tugas hiliran asas seperti klasifikasi imej, pengesanan sasaran dan pembahagian semantik/contoh.

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

Alamat kertas: https://arxiv.org/pdf/2405.16555
Alamat kod: https://github.com/MzeroMiko/vHeat
Bangunan ViHeat
Model atas Pengaliran Haba

Ikhtisar

Dua model visual asas paling arus perdana pada masa ini ialah CNN dan Visual Transformer (ViT). Walau bagaimanapun, prestasi CNN dihadkan oleh medan penerimaan tempatan dan pengendali kernel lilitan tetap. ViT mempunyai keupayaan untuk mewakili kebergantungan global, tetapi dengan kos kerumitan pengiraan norma kuadratik yang tinggi. Kami percaya bahawa pengendali lilitan dan pengendali perhatian sendiri CNN dan ViT adalah kedua-dua proses pemindahan piksel dalam ciri, yang masing-masing merupakan satu bentuk pemindahan maklumat, yang turut mengingatkan kami tentang pengaliran haba dalam medan fizikal. Jadi berdasarkan persamaan pengaliran haba, kami menghubungkan perambatan spatial semantik visual dengan pengaliran haba fizikal, mencadangkan pengendali pengaliran visual (Operator Pengaliran Haba, HCO) dengan kerumitan pengiraan kuasa 1.5, dan kemudian mereka bentuk pengendali pengaliran haba dengan perwakilan Visual yang rendah model vHeat untuk kerumitan, medan penerimaan global dan kebolehtafsiran fizikal. Bentuk pengiraan dan perbandingan kerumitan antara HCO dan perhatian kendiri ditunjukkan dalam rajah di bawah. Eksperimen telah membuktikan bahawa vHeat berfungsi dengan baik dalam pelbagai tugas visual. Sebagai contoh, vHeat-T mencapai 82.2% ketepatan pengelasan pada ImageNet-1K, iaitu 0.9% lebih tinggi daripada Swin-T dan 1.7% lebih tinggi daripada ViM-S. Selain prestasi, vHeat juga mempunyai kelebihan kelajuan inferens yang tinggi, penggunaan memori GPU yang rendah dan FLOP yang rendah. Apabila resolusi imej input adalah tinggi, model vHeat skala asas hanya mempunyai 1/3 lebih pemprosesan, 1/4 penggunaan memori GPU dan 3/4 FLOP berbanding dengan Swin.

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

Pengenalan kaedah

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global. Gunakan untuk mewakili suhu titik pada masa t. Memandangkan keadaan awal pada masa t=0, persamaan pengaliran haba boleh diselesaikan menggunakan transformasi Fourier, yang dinyatakan seperti berikut:

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

di mana Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global. dan masing-masing mewakili transformasi Fourier dan songsang Fourier, dan mewakili koordinat spatial domain frekuensi.

Kami menggunakan HCO untuk melaksanakan pengaliran haba dalam semantik visual Pertama, kami memanjangkan Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global. dalam persamaan pengaliran haba fizikal ke dalam ciri berbilang saluran Kami menganggap sebagai input dan sebagai keluaran dalam bentuk diskret, seperti berikut Formula ditunjukkan:

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

di mana Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global. dan mewakili penjelmaan kosinus diskret dua dimensi dan penjelmaan songsang masing-masing Struktur HCO ditunjukkan dalam Rajah (a) di bawah.

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

Selain itu, kami percaya bahawa kandungan imej yang berbeza harus sepadan dengan resapan terma yang berbeza Memandangkan output Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global. berada dalam domain frekuensi, kami menentukan difusi terma berdasarkan nilai frekuensi, . Memandangkan kedudukan berbeza dalam domain frekuensi mewakili nilai frekuensi yang berbeza, kami mencadangkan Pembenaman Nilai Kekerapan (FVE) untuk mewakili maklumat nilai frekuensi, yang serupa dengan pelaksanaan dan fungsi pengekodan kedudukan mutlak dalam ViT, dan menggunakan FVE untuk mengawal penyebaran haba kadar k diramalkan supaya HCO boleh melakukan pengaliran tidak seragam dan adaptif, seperti yang ditunjukkan dalam rajah di bawah.

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

vHeat dilaksanakan menggunakan struktur berbilang peringkat, seperti yang ditunjukkan dalam rajah di bawah Rangka kerja keseluruhan adalah serupa dengan model visual arus perdana, dan lapisan HCO ditunjukkan dalam Rajah 2 (b).

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

Hasil eksperimen

Pengkelasan ImageNet

Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.

Dengan membandingkan keputusan percubaan, mudah untuk melihat bahawa di bawah parameter dan FLOP yang serupa:

vHeat-T mencapai prestasi 82.2%, melebihi DeiT-S sebanyak 2.4% dan Vim-S 1.7 %, Swin-T mencapai 0.9%.
vHeat-S mencapai prestasi 83.6%, melebihi Swin-S sebanyak 0.6% dan ConvNeXt-S sebanyak 0.5%.
vHeat-B mencapai prestasi 83.9%, melebihi DeiT-B sebanyak 2.1% dan Swin-B sebanyak 0.4%.

Pada masa yang sama, disebabkan oleh kerumitan rendah dan pengiraan selari vHeat's O (N^1.5), throughput inferens mempunyai kelebihan yang jelas berbanding model ViT dan SSM, seperti throughput inferens vHeat-T It ialah 1514 img/s, iaitu 22% lebih tinggi daripada Swin-T, 87% lebih tinggi daripada Vim-S dan 26% lebih tinggi daripada ConvNeXt-T, sambil mempunyai prestasi yang lebih baik. . Ia melebihi Swin-T/S/B untuk mencapai 2.4/2.0/0.8 mAP dan melebihi ConvNeXt-T/S/B untuk mencapai 0.9/1.4/0.7 mAP. Pada set data ADE20K, vHeat-T/S/B masing-masing mencapai 46.9/49.0/49.6 mIoU, yang masih mempunyai prestasi yang lebih baik daripada Swin dan ConvNeXt. Keputusan ini mengesahkan bahawa vHeat berfungsi sepenuhnya dalam eksperimen hiliran visual, menunjukkan potensi untuk menggantikan model visual asas arus perdana.

Eksperimen analisis

vHeat mempunyai medan penerimaan berkesan global Antara model arus perdana untuk perbandingan visual, hanya DeiT dan HiViT yang mempunyai ciri ini. Walau bagaimanapun, perlu diperhatikan bahawa kos DeiT dan HiViT ialah kerumitan aras persegi, manakala vHeat ialah kerumitan aras kuasa 1.5. . Dapat dilihat dengan jelas bahawa disebabkan kerumitan pengiraan O (N^1.5), vHeat mempunyai kelajuan inferens yang lebih pantas, penggunaan memori yang lebih rendah dan FLOP yang lebih sedikit daripada model yang berbeza, dan apabila resolusi imej lebih besar, , kelebihannya akan menjadi lebih banyak. jelas. Apabila imej input ialah resolusi 768*768, daya pemprosesan inferens vHeat-B adalah kira-kira

3 kali ganda

berbanding Swin-B, penggunaan memori GPU adalah 74% lebih rendah daripada Swin-B, dan FLOP ialah 28 lebih rendah daripada Swin-B %

. Perbandingan kos pengiraan model berasaskan vHeat dan ViT menunjukkan potensinya yang sangat baik dalam memproses imej resolusi tinggi.

Atas ialah kandungan terperinci Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!