Vision Transformer (VIT) ialah model klasifikasi imej berasaskan Transformer yang dicadangkan oleh Google. Tidak seperti model CNN tradisional, VIT mewakili imej sebagai jujukan dan mempelajari struktur imej dengan meramalkan label kelas imej. Untuk mencapai matlamat ini, VIT membahagikan imej input kepada berbilang patch dan menggabungkan piksel dalam setiap patch melalui saluran dan kemudian melakukan unjuran linear untuk mencapai dimensi input yang dikehendaki. Akhir sekali, setiap tampalan diratakan menjadi satu vektor, membentuk urutan input. Melalui mekanisme perhatian kendiri Transformer, VIT dapat menangkap hubungan antara tampalan yang berbeza dan melakukan pengekstrakan ciri dan ramalan klasifikasi yang berkesan. Kaedah perwakilan imej bersiri ini membawa idea dan kesan baharu kepada tugas penglihatan komputer.
Model Pengubah Penglihatan digunakan secara meluas dalam tugas pengecaman imej, seperti pengesanan objek, pembahagian imej, pengelasan imej dan pengecaman tindakan. Di samping itu, ia sesuai untuk pemodelan generatif dan tugas berbilang model, termasuk asas visual, menjawab soalan visual dan penaakulan visual.
Sebelum kita mendalami cara Vision Transformers berfungsi, kita mesti memahami asas perhatian dan perhatian berbilang kepala dalam Transformer asal.
Transformer ialah model yang menggunakan mekanisme yang dipanggil self-attention, iaitu bukan CNN mahupun LSTM, ia membina model Transformer dan dengan ketara mengatasi kaedah ini.
Mekanisme perhatian model Transformer menggunakan tiga pembolehubah: Q (Query), K (Key) dan V (Value). Ringkasnya, ia mengira berat perhatian token Pertanyaan dan token Kunci, dan mendarabkannya dengan Nilai yang dikaitkan dengan setiap Kunci. Iaitu, model Transformer mengira perkaitan (berat perhatian) antara token Pertanyaan dan token Kunci, dan mendarabkan Nilai yang dikaitkan dengan setiap Kunci.
Takrifkan Q, K, V untuk dikira sebagai satu kepala Dalam mekanisme perhatian berbilang kepala, setiap kepala mempunyai matriks unjuran sendiri W_i^Q, W_i^K, W_i^V, dan mereka mengira unjuran. menggunakan matriks ini masing-masing pemberat perhatian untuk nilai ciri.
Mekanisme perhatian berbilang kepala membolehkan pemfokusan pada bahagian jujukan yang berlainan dengan cara yang berbeza setiap kali. Ini bermakna:
Model boleh menangkap maklumat kedudukan dengan lebih baik kerana setiap kepala akan memfokus pada bahagian input yang berbeza. Gabungan mereka akan memberikan perwakilan yang lebih berkuasa.
Setiap pengepala juga akan menangkap maklumat kontekstual yang berbeza melalui perkataan yang dikaitkan secara unik.
Sekarang kita tahu mekanisme kerja model Transformer, mari kita lihat semula model Vision Transformer.
Vision Transformer ialah model yang menggunakan Transformer pada tugas pengelasan imej, yang dicadangkan pada Oktober 2020. Seni bina model hampir sama dengan Transformer asal, yang membolehkan imej dianggap sebagai input, sama seperti pemprosesan bahasa semula jadi.
Model Pengubah Penglihatan menggunakan Pengekod Transformer sebagai model asas untuk mengekstrak ciri daripada imej dan menghantar ciri yang diproses ini kepada model kepala Multi-Layer Perceptron (MLP) untuk pengelasan. Memandangkan beban pengiraan Transformer model asas sudah sangat besar, Transformer Visi menguraikan imej menjadi blok persegi sebagai mekanisme perhatian "windowing" yang ringan untuk menyelesaikan masalah tersebut.
Imej kemudiannya ditukarkan kepada tompok segi empat sama, yang diratakan dan dihantar melalui satu lapisan suapan hadapan untuk mendapatkan unjuran tampalan linear. Untuk membantu mengelaskan bit, dengan menggabungkan benam kelas yang boleh dipelajari dengan unjuran tampalan lain.
Ringkasnya, unjuran tampalan dan benam kedudukan ini membentuk matriks yang lebih besar yang tidak lama lagi akan dihantar melalui pengekod Transformer. Output pengekod Transformer kemudiannya dihantar ke perceptron berbilang lapisan untuk pengelasan imej. Ciri input menangkap intipati imej dengan sangat baik, menjadikan tugas pengelasan kepala MLP lebih mudah.
Walaupun ViT menunjukkan potensi yang sangat baik dalam mempelajari ciri imej berkualiti tinggi, ia mengalami peningkatan prestasi dan ketepatan yang lemah. Peningkatan kecil dalam ketepatan tidak membenarkan masa jalan ViT yang lebih rendah.
Atas ialah kandungan terperinci Analisis mendalam tentang prinsip kerja dan ciri-ciri model Pengubah Penglihatan (VIT).. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!