Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub-AI-php.cn

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

王林

Lepaskan： 2024-06-06 12:20:45

asal

1333 orang telah melayarinya

Siri penanda aras YOLO sistem pengesanan sasaran sekali lagi menerima peningkatan besar.

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Sejak pengeluaran YOLOv9 pada Februari tahun ini, baton siri YOLO (You Only Look Once) telah diserahkan kepada para penyelidik di Universiti Tsinghua.

Hujung minggu lalu, berita pelancaran YOLOv10 menarik perhatian komuniti AI. Ia dianggap sebagai rangka kerja terobosan dalam bidang penglihatan komputer dan terkenal dengan keupayaan pengesanan objek hujung ke hujung masa nyata, meneruskan legasi siri YOLO dengan menyediakan penyelesaian berkuasa yang menggabungkan kecekapan dan ketepatan.

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Alamat kertas: https://arxiv.org/pdf/2405.14458

Alamat projek: https://github.com/THU-MIG/yolov10 adalah versi baharu

dikeluarkan, Ramai orang telah menjalankan ujian penempatan dengan keputusan yang baik:

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

YOLO sentiasa menjadi paradigma utama dalam bidang pengesanan sasaran masa nyata kerana prestasi yang berkuasa dan penggunaan yang rendah kuasa pengkomputeran. Rangka kerja ini digunakan secara meluas dalam pelbagai aplikasi praktikal, termasuk pemanduan autonomi, pengawasan dan logistik. Keupayaan pengesanan objeknya yang cekap dan tepat menjadikannya sesuai untuk tugas seperti mengenal pasti pejalan kaki dan kenderaan dalam masa nyata dalam logistik, ia membantu pengurusan inventori dan penjejakan pakej, dan keupayaan AInya membantu orang ramai meningkatkan kecekapan dalam banyak tugas.

Sejak beberapa tahun kebelakangan ini, penyelidik telah meneroka reka bentuk seni bina YOLO, matlamat pengoptimuman, strategi peningkatan data, dsb., dan telah mencapai kemajuan yang ketara. Walau bagaimanapun, pergantungan pasca pemprosesan pada penindasan bukan maksimum (NMS) menghalang penggunaan YOLO dari hujung ke hujung dan memberi kesan buruk kepada kependaman inferens. Tambahan pula, reka bentuk komponen individu dalam YOLO tidak mempunyai pemeriksaan yang komprehensif dan teliti, mengakibatkan lebihan pengiraan yang ketara dan mengehadkan keupayaan model.

Kejayaan YOLOv10 adalah untuk meningkatkan lagi sempadan kecekapan prestasi YOLO dari segi pasca pemprosesan dan seni bina model.

Untuk tujuan ini, pasukan penyelidik mencadangkan buat kali pertama tugasan dwi konsisten (tugasan dwi konsisten) untuk latihan NMS tanpa YOLO

, yang menjadikan YOLO bertambah baik dari segi prestasi dan kependaman inferens.

Pasukan penyelidik mencadangkan strategi reka bentuk model terdorong ketepatan kecekapan keseluruhan untuk YOLO, mengoptimumkan secara menyeluruh setiap komponen YOLO dari perspektif kecekapan dan ketepatan, mengurangkan overhed pengiraan dan meningkatkan keupayaan model.

Eksperimen yang meluas menunjukkan bahawa YOLOv10 mencapai prestasi dan kecekapan SOTA pada pelbagai skala model. Sebagai contoh, YOLOv10-S adalah 1.8x lebih pantas daripada RT-DETR-R18 pada AP serupa pada COCO, sambil mengurangkan bilangan parameter dan FLOP dengan ketara. Berbanding dengan YOLOv9-C, YOLOv10-B mempunyai pengurangan 46% dalam kependaman dan pengurangan 25% dalam parameter dengan prestasi yang sama.

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Pengenalan kaedah

Untuk mencapai keseluruhan reka bentuk model yang dipacu oleh kecekapan, pasukan penyelidik mencadangkan kaedah penambahbaikan dari dua aspek: kecekapan dan ketepatan.

Untuk meningkatkan kecekapan, kajian ini mencadangkan kepala pengelasan ringan, saluran spatial (saluran ruang) dipisahkan persampelan bawah dan reka bentuk blok berpandukan ranking untuk mengurangkan lebihan pengiraan yang jelas dan mencapai seni bina yang lebih cekap.

Untuk meningkatkan ketepatan, pasukan penyelidik meneroka konvolusi kernel yang besar dan mencadangkan modul perhatian kendiri separa (PSA) yang berkesan untuk meningkatkan keupayaan model dan memanfaatkan potensi peningkatan prestasi pada kos rendah. Berdasarkan kaedah ini, pasukan berjaya melaksanakan satu siri pengesan hujung-ke-hujung masa nyata skala berbeza, iaitu YOLOv10-N/S/M/B/L/X.

Tugasan berganda yang konsisten untuk latihan bebas NMS

Semasa latihan, YOLO biasanya menggunakan TAL untuk memberikan berbilang sampel positif kepada setiap kejadian. Pendekatan peruntukan satu kepada banyak menjana isyarat penyeliaan yang kaya yang memudahkan pengoptimuman dan membolehkan model mencapai prestasi unggul. 🎜🎜

Walau bagaimanapun, ini memerlukan YOLO untuk bergantung pada pemprosesan pasca NMS, yang menghasilkan kecekapan inferens yang tidak optimum apabila digunakan. Walaupun kerja-kerja penyelidikan terdahulu telah meneroka padanan satu dengan satu untuk menyekat ramalan yang berlebihan, mereka sering memperkenalkan overhed inferens tambahan.

Tidak seperti tugasan satu dengan banyak, padanan satu dengan satu hanya memberikan satu ramalan kepada setiap kebenaran asas, mengelakkan pemprosesan pasca NMS. Walau bagaimanapun, ini membawa kepada penyeliaan yang lemah, supaya ketepatan dan kelajuan penumpuan tidak ideal. Nasib baik, kekurangan ini boleh diperbaiki dengan peruntukan satu-ke-banyak.

"peruntukan dua label" yang dicadangkan dalam kajian ini menggabungkan kelebihan dua strategi di atas. Seperti yang ditunjukkan dalam rajah di bawah, penyelidikan ini memperkenalkan satu lagi kepala satu dengan satu untuk YOLO. Ia mengekalkan struktur yang sama dan menggunakan matlamat pengoptimuman yang sama seperti cawangan satu-ke-banyak yang asal, tetapi menggunakan padanan satu dengan satu untuk mendapatkan tugasan label. Semasa latihan, kedua-dua kepala dioptimumkan secara bersama untuk menyediakan pengawasan yang kaya semasa inferens, YOLOv10 membuang kepala satu-ke-banyak dan menggunakan kepala satu-satu untuk membuat ramalan. Ini membolehkan YOLO digunakan dari hujung ke hujung tanpa menanggung sebarang kos inferens tambahan.

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Keseluruhan reka bentuk model yang didorong oleh ketepatan kecekapan

Selain pasca pemprosesan, seni bina model YOLO juga menimbulkan cabaran besar kepada ketepatan perdagangan. Walaupun usaha penyelidikan terdahulu telah meneroka pelbagai strategi reka bentuk, pemeriksaan menyeluruh terhadap pelbagai komponen dalam YOLO masih kurang. Oleh itu, seni bina model mempamerkan redundansi pengiraan yang tidak boleh diabaikan dan keupayaan terhad.

Komponen dalam YOLO termasuk batang, lapisan pensampelan turun, peringkat dengan blok binaan asas dan kepala. Pengarang terutamanya melaksanakan reka bentuk model dipacu kecekapan untuk tiga bahagian berikut. Klasifikasi Cahaya Klasifikasi Head

spatial Saluran Decoupled Downsampling
ordering-Panduan Modul Design urutan untuk mencapai reka bentuk model yang didorong oleh ketepatan, pasukan penyelidikan selanjutnya meneroka ia mengamalkannya lilitan kernel besar dan mekanisme perhatian diri untuk meningkatkan prestasi model dengan kos yang minimum.
Eksperimen

Seperti yang ditunjukkan dalam Jadual 1, YOLOv10 yang dibangunkan oleh pasukan Tsinghua mencapai prestasi SOTA dan kependaman hujung ke hujung pada pelbagai skala model.

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Kajian ini juga menjalankan eksperimen ablasi untuk YOLOv10-S dan YOLOv10-M Keputusan eksperimen ditunjukkan dalam jadual berikut:

capai dalam jadual dwi lokasi yang ditunjukkan dalam jadual berikut. AP terbaik - Tukar ganti Latensi, prestasi optimum dicapai dengan metrik padanan yang konsisten.

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Seperti yang ditunjukkan dalam jadual di bawah, setiap komponen reka bentuk, termasuk kepala pengelasan ringan, saluran spatial decoupled downsampling dan reka bentuk modul berpandukan pesanan, menyumbang kepada mengurangkan bilangan parameter dan Kelewatan.FL. Yang penting, penambahbaikan ini dicapai sambil mengekalkan prestasi cemerlang. Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Analisis untuk reka bentuk model dipacu ketepatan. Para penyelidik membentangkan hasil daripada penyepaduan langkah demi langkah elemen reka bentuk yang dipacu ketepatan berdasarkan YOLOv10-S/M.

Seperti yang ditunjukkan dalam Jadual 10, penggunaan modul konvolusi teras besar dan PSA telah meningkatkan prestasi YOLOv10-S dengan ketara sebanyak 0.4% AP dan 1.4% AP dengan peningkatan kelewatan minimum masing-masing 0.03ms dan 0.15ms.

Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub

Atas ialah kandungan terperinci Universiti Tsinghua mengambil alih dan YOLOv10 keluar: prestasi telah bertambah baik dan ia berada dalam senarai panas GitHub. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!