Mempamerkan ketepatan yang sangat baik dalam rangkaian neural dalam (DNN). Walau bagaimanapun, mereka menunjukkan kelemahan kepada bunyi tambahan, iaitu, serangan musuh. Penyelidikan sebelum ini membuat hipotesis bahawa kelemahan ini mungkin berpunca daripada terlalu bergantung DNN ketepatan tinggi pada ciri yang tidak penting dan tidak terhad seperti tekstur dan latar belakang. Walau bagaimanapun, penyelidikan baharu mendedahkan bahawa kelemahan ini tidak ada kaitan dengan ciri khusus DNN yang sangat tepat yang terlalu mempercayai faktor yang tidak berkaitan seperti berat dan konteksnya.
Pada persidangan akademik AAI 2024 baru-baru ini, penyelidik dari University of Sydney mendedahkan bahawa "maklumat tepi yang diekstrak daripada imej boleh memberikan ciri yang sangat relevan dan mantap berkaitan dengan bentuk dan latar belakang".
Pautan kertas: https://ojs.aaai.org/index.php/AAAI/article/view/28110
Ciri-ciri ini membantu rangkaian dalam yang telah terlatih untuk meningkatkan kekuatan lawannya. , tanpa menjejaskan ketepatannya pada imej yang jelas.
Penyelidik mencadangkan EdgeNet yang ringan dan boleh disesuaikan yang boleh disepadukan dengan lancar ke dalam rangkaian dalam sedia ada yang telah terlatih, termasuk Vision Transformers (ViTs), generasi terkini model termaju untuk keluarga klasifikasi visual.
EdgeNet ialah teknik pengekstrakan tepi yang memproses tepi yang diekstrak daripada imej semula jadi yang bersih atau imej musuh yang bising, dan boleh disuntik ke dalam lapisan tengah rangkaian dalam tulang belakang yang telah terlatih dan beku. Rangkaian dalam ini mempunyai ciri kekukuhan tulang belakang yang sangat baik dan boleh mengekstrak ciri dengan maklumat semantik yang kaya. Dengan memasukkan EdgeNet ke dalam rangkaian sedemikian, seseorang boleh memanfaatkan rangkaian dalam tulang belakangnya yang berkualiti tinggi
Perlu diingat bahawa pendekatan ini membawa kos tambahan yang minimum: menggunakan algoritma pengesanan tepi tradisional seperti yang disebut dalam artikel The kos untuk memperoleh tepi ini (pengesan tepi Canny) adalah kecil berbanding kos inferens untuk rangkaian dalam manakala kos latihan EdgeNet adalah setanding dengan kos penalaan halus rangkaian tulang belakang menggunakan teknik seperti Adapter.
Untuk menyuntik maklumat tepi dalam imej ke dalam rangkaian tulang belakang yang telah dilatih, penulis memperkenalkan rangkaian cawangan sampingan yang dipanggil EdgeNet. Rangkaian cagaran palam dan main yang ringan ini boleh disepadukan dengan lancar ke dalam rangkaian dalam sedia ada yang telah terlatih, termasuk model terkini seperti ViT.
Berjalan pada maklumat tepi yang diekstrak daripada imej input, EdgeNet+ boleh menjana satu set ciri yang mantap. Proses ini menghasilkan ciri teguh yang boleh disuntik secara terpilih ke dalam rangkaian dalam tulang belakang yang telah terlatih untuk pembekuan dalam lapisan perantaraan rangkaian dalam.
Dengan menyuntik ciri teguh ini, keupayaan rangkaian untuk bertahan daripada gangguan musuh boleh dipertingkatkan. Pada masa yang sama, memandangkan rangkaian tulang belakang dibekukan dan suntikan ciri baharu adalah selektif, ketepatan rangkaian pra-latihan dalam mengenal pasti imej jelas yang tidak terganggu dapat dikekalkan.
Seperti yang ditunjukkan dalam rajah, penulis memasukkan blok binaan EdgeNet baharu pada selang N tertentu berdasarkan blok binaan asal . Output lapisan perantaraan baharu boleh diwakili oleh formula berikut:
Untuk mencapai pengekstrakan ciri terpilih dan suntikan ciri terpilih, blok binaan EdgeNet ini menggunakan struktur "sandwic": setiap Konvolusi Zero ( lilitan sifar) ditambah sebelum dan selepas blok untuk mengawal input dan output. Di antara dua lilitan sifar ini ialah blok ViT dengan pemulaan rawak dan seni bina yang sama seperti rangkaian tulang belakang
Dengan input sifar, bertindak sebagai penapis untuk mengekstrak maklumat yang berkaitan dengan matlamat pengoptimuman, ia bertindak sebagai penapis untuk menentukan maklumat untuk disepadukan ke dalam tulang belakang. Selain itu, dengan permulaan sifar, ia dipastikan bahawa aliran maklumat dalam tulang belakang kekal tidak terjejas. Akibatnya, penalaan halus EdgeNet seterusnya menjadi lebih diperkemas.
Semasa proses latihan EdgeNet, rangkaian tulang belakang ViT pra-latihan dibekukan kecuali kepala pengelasan dan tidak akan dikemas kini. Matlamat pengoptimuman hanya tertumpu pada rangkaian EdgeNet yang diperkenalkan untuk ciri kelebihan, dan pengelasan utama dalam rangkaian tulang belakang. Di sini, penulis mengamalkan objektif pengoptimuman bersama yang sangat dipermudahkan untuk memastikan kecekapan latihan:
Dalam Formula 9, α ialah berat fungsi kehilangan ketepatan, dan β ialah berat fungsi kehilangan keteguhan. Dengan melaraskan saiz α dan β, keseimbangan objektif latihan EdgeNet boleh diperhalusi untuk mencapai tujuan meningkatkan kekukuhannya tanpa kehilangan ketepatan yang ketara.
Pengarang menguji keteguhan dua kategori utama pada dataset ImageNet.
Kategori pertama ialah keteguhan terhadap serangan musuh, termasuk serangan kotak putih dan serangan kotak hitam
Kategori kedua ialah keteguhan terhadap beberapa gangguan biasa, termasuk yang semula jadi dalam ImageNet-A Natural Adversarial; Contoh, Data Luar Pengedaran dalam ImageNet-R dan Rasuah Biasa dalam ImageNet-C.
Pengarang juga menggambarkan maklumat tepi yang diekstrak di bawah gangguan yang berbeza.
Skala rangkaian dan ujian prestasi
Dalam bahagian eksperimen, penulis terlebih dahulu menguji prestasi pengelasan dan overhed pengiraan EdgeNet pada skala yang berbeza (Jadual 1). Selepas mempertimbangkan secara menyeluruh prestasi klasifikasi dan overhed pengiraan, mereka menentukan bahawa konfigurasi #Selang = 3 ialah tetapan optimum.
Dalam konfigurasi ini, EdgeNet mencapai ketepatan dan peningkatan keteguhan yang ketara berbanding model garis dasar. Ia mencapai kompromi yang seimbang antara prestasi klasifikasi, keperluan pengiraan dan keteguhan.
Konfigurasi ini mencapai keuntungan besar dalam ketepatan kejelasan dan keteguhan sambil mengekalkan kecekapan pengiraan yang munasabah.
Perbandingan Ketepatan dan Kekukuhan
Pengarang membandingkan EdgeNet yang dicadangkan mereka dengan 5 kategori kaedah SOTA yang berbeza (Jadual 2). Kaedah ini termasuk CNN yang dilatih mengenai imej semula jadi, CNN yang teguh, ViT yang dilatih mengenai imej semula jadi, ViT yang teguh dan ViT yang ditala halus yang teguh.
Metrik yang dipertimbangkan termasuk ketepatan di bawah serangan musuh (FGSM dan PGD), ketepatan pada ImageNet-A dan ketepatan pada ImageNet-R.
Selain itu, ralat min (mCE) ImageNet-C juga dilaporkan, dengan nilai yang lebih rendah menunjukkan prestasi yang lebih baik. Keputusan eksperimen menunjukkan bahawa EdgeNet mempamerkan prestasi unggul dalam menghadapi serangan FGSM dan PGD, sambil berprestasi setanding dengan kaedah SOTA sebelumnya pada dataset ImageNet-1K yang bersih dan variannya.
Selain itu, penulis juga menjalankan eksperimen serangan kotak hitam (Jadual 3). Keputusan eksperimen menunjukkan bahawa EdgeNet juga boleh menahan serangan kotak hitam dengan sangat berkesan.
🎜Dalam karya ini, penulis mencadangkan kaedah baharu yang dipanggil EdgeNet, yang boleh meningkatkan keteguhan rangkaian saraf dalam (terutamanya ViT) dengan menggunakan maklumat tepi yang diekstrak daripada imej seks.
Ini ialah modul ringan yang boleh disepadukan dengan lancar ke dalam rangkaian sedia ada. Ia boleh meningkatkan kekukuhan lawan dengan berkesan. Eksperimen telah menunjukkan bahawa EdgeNet adalah cekap - ia hanya membawa overhed pengiraan tambahan yang minimum.
Selain itu, EdgeNet mempunyai kebolehgunaan luas pada pelbagai penanda aras yang teguh. Ini menjadikannya satu perkembangan yang patut diberi perhatian dalam bidang tersebut.
Tambahan pula, hasil percubaan mengesahkan bahawa EdgeNet boleh menahan serangan musuh dengan berkesan dan mengekalkan ketepatan pada imej bersih, yang menyerlahkan potensi maklumat tepi sebagai ciri yang mantap dan relevan dalam tugas pengelasan visual.
Perlu diperhatikan bahawa keteguhan EdgeNet tidak terhad kepada serangan lawan, tetapi juga meliputi serangan yang melibatkan contoh musuh semula jadi (ImageNet-A), data di luar pengedaran (ImageNet-R) dan Senario pemusnahan biasa (ImageNet- C) .
Aplikasi yang lebih luas ini menyerlahkan kepelbagaian EdgeNet dan menunjukkan potensinya sebagai penyelesaian komprehensif kepada pelbagai cabaran dalam tugas pengelasan visual.
Atas ialah kandungan terperinci . Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!