Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Bagaimana untuk menembusi mekanisme Perhatian Transformer? Akademi Sains Universiti China dan Makmal Kebangsaan Pengcheng mencadangkan model perwakilan visual vHeat berdasarkan pengaliran haba. Anggap blok ciri imej sebagai sumber haba, dan ekstrak ciri imej dengan meramalkan kekonduksian terma dan berdasarkan konduksi haba fizikalprinsip. Berbanding dengan model visual berdasarkan mekanisme Perhatian, vHeat mengambil kira pada masa yang sama: kerumitan pengiraan (kuasa 1.5), medan penerimaan global dan kebolehtafsiran fizikal.
Apabila menggunakan vHeat-base+%E6%A8%A1%E5%9E%8B untuk input imej resolusi tinggi, put, penggunaan memori GPU dan flop masing-masing adalah Swin-base+%E6%A8%A1%E5%9E . 3 kali, 1/4, 3/4 daripada %8B. Ia telah mencapai prestasi lanjutan pada tugas hiliran asas seperti klasifikasi imej, pengesanan sasaran dan pembahagian semantik/contoh.Ikhtisar
Dua model visual asas paling arus perdana pada masa ini ialah CNN dan Visual Transformer (ViT). Walau bagaimanapun, prestasi CNN dihadkan oleh medan penerimaan tempatan dan pengendali kernel lilitan tetap. ViT mempunyai keupayaan untuk mewakili kebergantungan global, tetapi dengan kos kerumitan pengiraan norma kuadratik yang tinggi. Kami percaya bahawa pengendali lilitan dan pengendali perhatian sendiri CNN dan ViT adalah kedua-dua proses pemindahan piksel dalam ciri, yang masing-masing merupakan satu bentuk pemindahan maklumat, yang turut mengingatkan kami tentang pengaliran haba dalam medan fizikal. Jadi berdasarkan persamaan pengaliran haba, kami menghubungkan perambatan spatial semantik visual dengan pengaliran haba fizikal, mencadangkan pengendali pengaliran visual (Operator Pengaliran Haba, HCO) dengan kerumitan pengiraan kuasa 1.5, dan kemudian mereka bentuk pengendali pengaliran haba dengan perwakilan Visual yang rendah model vHeat untuk kerumitan, medan penerimaan global dan kebolehtafsiran fizikal. Bentuk pengiraan dan perbandingan kerumitan antara HCO dan perhatian kendiri ditunjukkan dalam rajah di bawah. Eksperimen telah membuktikan bahawa vHeat berfungsi dengan baik dalam pelbagai tugas visual. Sebagai contoh, vHeat-T mencapai 82.2% ketepatan pengelasan pada ImageNet-1K, iaitu 0.9% lebih tinggi daripada Swin-T dan 1.7% lebih tinggi daripada ViM-S. Selain prestasi, vHeat juga mempunyai kelebihan kelajuan inferens yang tinggi, penggunaan memori GPU yang rendah dan FLOP yang rendah. Apabila resolusi imej input adalah tinggi, model vHeat skala asas hanya mempunyai 1/3 lebih pemprosesan, 1/4 penggunaan memori GPU dan 3/4 FLOP berbanding dengan Swin.Pengenalan kaedah
Gunakan untuk mewakili suhu titik pada masa t. Memandangkan keadaan awal pada masa t=0, persamaan pengaliran haba boleh diselesaikan menggunakan transformasi Fourier, yang dinyatakan seperti berikut:
di mana dan masing-masing mewakili transformasi Fourier dan songsang Fourier, dan mewakili koordinat spatial domain frekuensi.
Kami menggunakan HCO untuk melaksanakan pengaliran haba dalam semantik visual Pertama, kami memanjangkan dalam persamaan pengaliran haba fizikal ke dalam ciri berbilang saluran Kami menganggap sebagai input dan sebagai keluaran dalam bentuk diskret, seperti berikut Formula ditunjukkan:
di mana dan mewakili penjelmaan kosinus diskret dua dimensi dan penjelmaan songsang masing-masing Struktur HCO ditunjukkan dalam Rajah (a) di bawah.
Selain itu, kami percaya bahawa kandungan imej yang berbeza harus sepadan dengan resapan terma yang berbeza Memandangkan output berada dalam domain frekuensi, kami menentukan difusi terma berdasarkan nilai frekuensi, . Memandangkan kedudukan berbeza dalam domain frekuensi mewakili nilai frekuensi yang berbeza, kami mencadangkan Pembenaman Nilai Kekerapan (FVE) untuk mewakili maklumat nilai frekuensi, yang serupa dengan pelaksanaan dan fungsi pengekodan kedudukan mutlak dalam ViT, dan menggunakan FVE untuk mengawal penyebaran haba kadar k diramalkan supaya HCO boleh melakukan pengaliran tidak seragam dan adaptif, seperti yang ditunjukkan dalam rajah di bawah.
vHeat dilaksanakan menggunakan struktur berbilang peringkat, seperti yang ditunjukkan dalam rajah di bawah Rangka kerja keseluruhan adalah serupa dengan model visual arus perdana, dan lapisan HCO ditunjukkan dalam Rajah 2 (b).
Hasil eksperimen
Pengkelasan ImageNet
Eksperimen analisis
Medan penerimaan yang berkesan
vHeat mempunyai medan penerimaan berkesan global Antara model arus perdana untuk perbandingan visual, hanya DeiT dan HiViT yang mempunyai ciri ini. Walau bagaimanapun, perlu diperhatikan bahawa kos DeiT dan HiViT ialah kerumitan aras persegi, manakala vHeat ialah kerumitan aras kuasa 1.5. . Dapat dilihat dengan jelas bahawa disebabkan kerumitan pengiraan O (N^1.5), vHeat mempunyai kelajuan inferens yang lebih pantas, penggunaan memori yang lebih rendah dan FLOP yang lebih sedikit daripada model yang berbeza, dan apabila resolusi imej lebih besar, , kelebihannya akan menjadi lebih banyak. jelas. Apabila imej input ialah resolusi 768*768, daya pemprosesan inferens vHeat-B adalah kira-kira
3 kali gandaberbanding Swin-B, penggunaan memori GPU adalah 74% lebih rendah daripada Swin-B, dan FLOP ialah 28 lebih rendah daripada Swin-B %
. Perbandingan kos pengiraan model berasaskan vHeat dan ViT menunjukkan potensinya yang sangat baik dalam memproses imej resolusi tinggi.Atas ialah kandungan terperinci Model perwakilan visual vHeat yang diilhamkan oleh pemindahan haba fizikal ada di sini. Ia cuba menembusi mekanisme perhatian dan mempunyai kerumitan rendah dan medan penerimaan global.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!