Mudah dan universal: rangkaian asas visual mempercepatkan latihan tanpa kehilangan sehingga 3 kali, Tsinghua EfficientTrain++ dipilih untuk TPAMI 2024-AI-php.cn

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

paper Link: https: //m.sbmmt.com/link/db4db5ec58a9433419cb104eab915c2
Kod dan model pra-terlatih telah dibuka sumber: https: //www.php. cn/link/ a896144046a1b5bd6e3e034d00b4f73a
Kertas versi persidangan (ICCV 2023): //m.sbmmt.com/link/45012e4d324d9d45012e4d324d9d

Lajur Institut Visi Komputer

Lajur Visi Komputer Institut

Artikel ini terutamanya memperkenalkan artikel yang baru sahaja diterima oleh IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI): EfficientTrain++: Pembelajaran Kurikulum Umum untuk Latihan Tulang Belakang Visual yang Cekap.

Dalam beberapa tahun kebelakangan ini, "penskalaan" telah menjadi salah satu protagonis penyelidikan penglihatan komputer. Dengan peningkatan dalam saiz model dan skala data latihan, kemajuan algoritma pembelajaran, dan aplikasi meluas teknologi penyelarasan dan peningkatan data, rangkaian asas visual diperoleh melalui latihan berskala besar (seperti Vision Transformer dan MAE yang dilatih pada ImageNet1K/22K , DINOv2, dsb.) telah mencapai prestasi yang menakjubkan dalam banyak tugas visual penting seperti pengecaman visual, pengesanan sasaran dan pembahagian semantik.

Walau bagaimanapun, "penskalaan" sering membawa overhed latihan model tinggi yang melarang, yang dengan ketara menghalang pembangunan lanjut dan aplikasi industri model penglihatan asas.

Untuk menyelesaikan masalah ini, pasukan penyelidik Universiti Tsinghua mencadangkan algoritma pembelajaran kurikulum umum: EfficientTrain++. Idea teras adalah untuk mempromosikan paradigma pembelajaran kursus tradisional iaitu "menyaring dan menggunakan data daripada mudah kepada sukar, dan melatih model secara beransur-ansur" kepada "tidak menapis dimensi data, sentiasa menggunakan semua data latihan, tetapi mendedahkan setiap ciri secara beransur-ansur semasa proses latihan. " Ciri atau corak (corak) daripada mudah kepada sukar bagi setiap sampel data."

EfficientTrain++ mempunyai beberapa sorotan penting:

Pelaksanaan plug-and-play rangkaian asas visual 1.5−3.0× pecutan latihan tanpa kehilangan. Prestasi model huluan mahupun hiliran tidak hilang. Kelajuan yang diukur adalah konsisten dengan keputusan teori.
Terpakai secara universal untuk saiz data latihan yang berbeza (seperti ImageNet-1K/22K, kesan 22K lebih jelas). Biasa digunakan untuk pembelajaran diselia dan pembelajaran diselia sendiri (seperti MAE). Biasa kepada kos latihan yang berbeza (cth. sepadan dengan 0-300 atau lebih zaman).
Biasa digunakan dalam ViT, ConvNet dan struktur rangkaian lain (lebih daripada 20 model pelbagai saiz dan jenis telah diuji dalam artikel ini, dan ia konsisten dan berkesan).
Untuk model yang lebih kecil, sebagai tambahan kepada pecutan latihan, ia juga boleh meningkatkan prestasi dengan ketara (contohnya, tanpa bantuan maklumat tambahan dan tanpa overhed latihan tambahan, DeiT-S sebanyak 81.3% diperolehi pada ImageNet-1K , menyaingi Swin-Tiny yang asal). Teknologi Pengoptimuman Kecekapan Sebenar yang Dibangunkan untuk two mencabar situasi praktikal yang sama: 1) CPU/Hard Disk tidak cukup kuat, dan kecekapan pra-proses yang tidak dapat diproses dengan GPU; , seperti melatih model besar pada ImageNet-22K menggunakan 64 atau lebih GPU.
Seterusnya, mari kita lihat butiran kajian.

Dalam beberapa tahun kebelakangan ini, perkembangan pesat model asas berskala besar telah menggalakkan kemajuan kecerdasan buatan dan pembelajaran mendalam. Dalam bidang penglihatan komputer, kerja perwakilan seperti Vision Transformer (ViT), CLIP, SAM dan DINOv2 telah membuktikan bahawa meningkatkan saiz rangkaian saraf dan data latihan dapat mengembangkan tugas visual penting seperti pengecaman, pengesanan dan segmentasi dengan ketara. sempadan prestasi.

Walau bagaimanapun, model asas yang besar selalunya mempunyai overhed latihan yang tinggi, Rajah 1 memberikan dua contoh tipikal. Mengambil lapan NVIDIA V100 atau GPU berprestasi tinggi sebagai contoh, ia akan mengambil masa bertahun-tahun atau bahkan beberapa dekad untuk menyelesaikan hanya satu sesi latihan untuk GPT-3 dan ViT-G. Kos latihan yang tinggi sedemikian adalah perbelanjaan yang besar yang sukar untuk dimiliki oleh kedua-dua pihak akademik dan industri Selalunya hanya beberapa institusi terkemuka yang boleh memajukan kemajuan pembelajaran mendalam dengan menggunakan sejumlah besar sumber. Oleh itu, persoalan mendesak yang perlu diselesaikan ialah: bagaimana untuk meningkatkan kecekapan latihan model pembelajaran mendalam yang besar dengan berkesan?

. proses pembelajaran Semasa proses latihan model, kami bermula dengan data latihan "paling mudah" dan secara beransur-ansur memperkenalkan data dari mudah kepada sukar. . asas visual Sebab utama kaedah umum model ialah terdapat dua kesesakan utama, seperti yang ditunjukkan dalam Rajah 3. Pertama, mereka bentuk kurikulum latihan (kurikulum) yang berkesan bukanlah mudah. Membezakan antara sampel "mudah" dan "sukar" selalunya memerlukan bantuan model pra-latihan tambahan, mereka bentuk algoritma AutoML yang lebih kompleks, memperkenalkan pembelajaran pengukuhan, dsb., dan mempunyai fleksibiliti yang lemah. Kedua, pemodelan pembelajaran kursus itu sendiri agak tidak munasabah. Data visual dalam pengedaran semula jadi selalunya mempunyai tahap kepelbagaian yang tinggi Satu contoh diberikan di bawah dalam Rajah 3 (gambar burung nuri dipilih secara rawak daripada ImageNet Data latihan model mengandungi sejumlah besar burung kakak tua dengan pergerakan yang berbeza, burung kakak tua pada jarak yang berbeza dari kamera, Burung kakak tua dari perspektif dan latar belakang yang berbeza, serta interaksi yang pelbagai antara burung kakak tua dan orang atau objek, dsb., ia sebenarnya kaedah yang agak kasar untuk membezakan data yang pelbagai itu hanya dengan penunjuk dimensi tunggal "mudah" dan "sukar" " dan kaedah pemodelan yang dibuat-buat.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

Rajah 3 Dua kesesakan utama yang menghalang aplikasi pembelajaran kursus berskala besar dalam melatih model asas visual

2. Pengenalan kepada kaedah

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Diinspirasikan oleh cabaran di atas, artikel ini mencadangkan paradigma pembelajaran kurikulum umum Idea teras adalah untuk "menyaring dan menggunakan data daripada mudah kepada sukar dan melatih model secara beransur-ansur" Paradigma pembelajaran kursus tradisional ialah. diperluaskan kepada "Tiada penapisan dimensi data, semua data latihan sentiasa digunakan, tetapi ciri atau corak daripada mudah kepada sukar bagi setiap sampel data secara beransur-ansur didedahkan semasa proses latihan", yang secara berkesan mengelakkan Had dan reka bentuk suboptimum yang disebabkan oleh paradigma saringan data dihapuskan, seperti yang ditunjukkan dalam Rajah 4. . model visual , walaupun model sentiasa boleh mendapatkan semua maklumat yang terkandung dalam data pada bila-bila masa, model akan sentiasa belajar terlebih dahulu untuk mengenal pasti beberapa ciri diskriminasi yang agak mudah (corak) yang terkandung dalam data, dan kemudian secara beransur-ansur belajar untuk mengenal pasti lebih sukar. corak atas dasar ini. Ciri-ciri diskriminasi

. Selain itu, peraturan ini agak universal, dan ciri diskriminasi "agak mudah" boleh didapati dengan mudah dalam kedua-dua domain frekuensi dan domain ruang. Kertas kerja ini mereka bentuk satu siri eksperimen yang menarik untuk menunjukkan penemuan di atas, seperti yang diterangkan di bawah.

Daripada perspektif domain frekuensi, "ciri frekuensi rendah" adalah "agak mudah" untuk model 简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

. Dalam Rajah 5, pengarang artikel ini melatih model DeiT-S menggunakan data latihan ImageNet-1K standard, dan menggunakan penapis laluan rendah dengan lebar jalur yang berbeza untuk menapis set pengesahan, mengekalkan hanya komponen frekuensi rendah imej pengesahan, dan melaporkan berdasarkan ini. Ketepatan DeiT-S pada data pengesahan lulus rendah semasa proses latihan Lengkung ketepatan yang diperolehi berbanding proses latihan ditunjukkan di sebelah kanan Rajah 5.

Kita dapat melihat fenomena menarik: pada peringkat awal latihan, hanya menggunakan data pengesahan lulus rendah tidak mengurangkan ketepatan dengan ketara, dan titik pemisahan antara lengkung dan ketepatan set pengesahan biasa meningkat dengan lebar jalur penapis dan secara beransur-ansur bergerak ke kanan. Fenomena ini menunjukkan bahawa walaupun model sentiasa mempunyai akses kepada bahagian frekuensi rendah dan tinggi dalam data latihan, proses pembelajarannya secara semula jadi bermula dengan memfokuskan hanya pada maklumat frekuensi rendah, dan keupayaan untuk mengenal pasti ciri frekuensi tinggi diperoleh secara beransur-ansur. kemudian dalam latihan (fenomena ini Untuk bukti lanjut, sila rujuk teks asal). . model? Berikan input visual maklumat frekuensi rendah pada mulanya, dan kemudian secara beransur-ansur memperkenalkan maklumat frekuensi tinggi?

Rajah 6 menyiasat idea untuk melaksanakan penapisan laluan rendah pada data latihan hanya semasa fasa latihan awal dengan panjang tertentu, meninggalkan proses latihan yang selebihnya tidak berubah. Dapat diperhatikan daripada keputusan bahawa walaupun peningkatan prestasi akhir adalah terhad, adalah menarik bahawa ketepatan akhir model boleh dikekalkan pada tahap yang besar walaupun hanya komponen frekuensi rendah disediakan kepada model untuk tempoh yang agak lama. fasa latihan awal, yang Ia juga bertepatan dengan pemerhatian dalam Rajah 5 bahawa "model ini memberi tumpuan terutamanya kepada pembelajaran mengenal pasti ciri frekuensi rendah pada peringkat awal latihan". 简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

Penemuan ini memberi inspirasi kepada pengarang artikel ini untuk memikirkan tentang kecekapan latihan: Memandangkan model hanya memerlukan komponen frekuensi rendah dalam data pada peringkat awal latihan, dan komponen frekuensi rendah mengandungi kurang maklumat daripada data asal , bolehkah model memproses input asal pada kadar yang lebih cepat daripada Cekap belajar daripada komponen frekuensi rendah sahaja dengan kos pengiraan yang kurang? . Seperti yang ditunjukkan di sebelah kiri Rajah 7, pengarang artikel ini memperkenalkan operasi pemangkasan dalam spektrum Fourier imej untuk memotong bahagian frekuensi rendah dan memetakannya kembali ke ruang piksel. Operasi pemangkasan frekuensi rendah ini dengan tepat mengekalkan semua maklumat frekuensi rendah sambil mengurangkan saiz input imej, jadi kos pengiraan model pembelajaran daripada input dapat dikurangkan secara eksponen.

Jika anda menggunakan operasi pemangkasan frekuensi rendah ini untuk memproses input model pada peringkat awal latihan, anda boleh menjimatkan kos latihan keseluruhan dengan ketara, tetapi masih tidak mengalami kerugian dalam prestasi kerana maklumat yang diperlukan untuk pembelajaran model adalah dikekalkan ke tahap maksimum Model akhir, keputusan eksperimen ditunjukkan di sudut kanan bawah Rajah 7.

Rajah 7 Pemotongan frekuensi rendah: membenarkan model belajar dengan cekap hanya daripada maklumat frekuensi rendah

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

Selain daripada operasi domain frekuensi, ia juga boleh didapati dari perspektif transformasi domain Ciri "agak mudah" untuk model

. Sebagai contoh, maklumat imej semula jadi yang terkandung dalam input visual mentah yang tidak mengalami peningkatan data yang kukuh atau pemprosesan herotan selalunya "lebih mudah" untuk model dan lebih mudah untuk model untuk belajar kerana ia diperoleh daripada pengedaran dunia sebenar, dan tambahan maklumat, invarian, dsb. yang diperkenalkan oleh teknik prapemprosesan seperti peningkatan data selalunya sukar untuk dipelajari oleh model (contoh biasa diberikan di sebelah kiri Rajah 8).

Malah, penyelidikan sedia ada juga mendapati bahawa penambahan data memainkan peranan terutamanya dalam peringkat latihan yang lebih akhir (seperti "Meningkatkan Auto-Augment melalui Perkongsian Berat Badan-Bijak Augmentasi", NeurIPS'20).

Dalam dimensi ini, untuk merealisasikan paradigma pembelajaran kursus umum, ia boleh dicapai dengan mudah dengan hanya mengubah intensiti penambahan data untuk menyediakan model dengan hanya maklumat imej semula jadi yang lebih mudah dipelajari dalam data latihan pada peringkat awal latihan. Bahagian kanan Rajah 8 menunjukkan idea ini menggunakan RandAugment sebagai contoh yang mewakili RandAugment mengandungi satu siri transformasi peningkatan data spatial biasa (seperti putaran rawak, perubahan ketajaman, transformasi afin, perubahan pendedahan, dll.). 简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

Boleh diperhatikan bahawa melatih model bermula daripada penambahan data yang lebih lemah boleh meningkatkan prestasi akhir model dengan berkesan, dan teknik ini serasi dengan pemangkasan frekuensi rendah.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

Rajah 8 Mencari ciri "lebih mudah dipelajari" model dari perspektif ruang udara: perspektif peningkatan data

Sehingga ke tahap ini, artikel ini telah mencadangkan rangka kerja teras dan andaian kursus umum pembelajaran, dan dengan mendedahkan Dua fenomena utama dalam domain kekerapan dan domain spatial membuktikan rasionaliti dan keberkesanan pembelajaran kursus umum. Atas dasar ini, makalah ini melengkapkan lagi satu siri kerja sistematik, yang disenaraikan di bawah. Disebabkan keterbatasan ruang, sila rujuk kertas asal untuk mendapatkan butiran penyelidikan lanjut.

Sepadukan dua penemuan teras domain kekerapan dan domain spatial, cadangkan dan tingkatkan algoritma pengoptimuman yang direka khas, dan wujudkan pelan pembelajaran kursus umum EfficientTrain++ yang bersatu dan bersepadu.
Membincangkan kaedah khusus untuk pelaksanaan operasi pemangkasan frekuensi rendah yang cekap pada perkakasan sebenar, dan membandingkan dua kaedah yang boleh dilaksanakan untuk mengekstrak maklumat frekuensi rendah daripada kedua-dua perspektif teori dan eksperimen: pemotongan frekuensi rendah dan pensampelan imej, perbezaan dan menyambung.
Membangunkan teknologi pengoptimuman kecekapan praktikal khas untuk dua situasi praktikal biasa yang mencabar: 1) CPU/cakera keras tidak cukup berkuasa, dan kecekapan prapemprosesan data tidak dapat bersaing dengan GPU 2) Latihan selari berskala besar, seperti dalam ImageNet -Latih model besar pada 22K menggunakan 64 atau lebih GPU.

Pelan pembelajaran kursus umum EfficientTrain++ akhirnya diperolehi dalam artikel ini ditunjukkan dalam Rajah 9. EfficientTrain++ secara dinamik melaraskan lebar jalur pemangkasan frekuensi rendah domain frekuensi dan keamatan peningkatan data domain spatial berdasarkan peratusan penggunaan daripada jumlah overhed pengkomputeran latihan model.

Perlu diambil perhatian bahawa sebagai kaedah pasang dan main, EfficientTrain++ boleh digunakan secara langsung pada pelbagai rangkaian asas visual dan senario latihan model yang pelbagai tanpa pelarasan atau carian hiperparameter selanjutnya, dan kesannya agak stabil .

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Rajah 9 Pelan pembelajaran kursus umum bersepadu dan bersepadu: EfficientTrain++

III. Keputusan percubaan

Sebagai kaedah pasang dan main, EfficientTrain++ mengurangkan overhed latihan sebenar pelbagai rangkaian asas visual sebanyak kira-kira 1.5 kali pada ImageNet-1K tanpa kehilangan atau meningkatkan prestasi pada dasarnya.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

Rajah 10 Keputusan percubaan ImageNet-1K: Prestasi EfficientTrain++ pada pelbagai rangkaian asas visual

Keuntungan EfficientTrain++ adalah universal untuk latihan yang berbeza dengan bajet overhed/prestasi yang sama Swin Nisbah pecutan latihan pada ImageNet-1K adalah kira-kira 2-3 kali.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Rajah 11 Keputusan percubaan ImageNet-1K: Prestasi EfficientTrain++ di bawah belanjawan overhed latihan yang berbeza

EfficientTrain++ boleh mencapai prestasi 2-3 kali latihan tanpa kehilangan imej tanpa ccelel 2cc

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Rajah 12 Keputusan percubaan ImageNet-22K: Prestasi EfficientTrain++ pada data latihan berskala lebih besar

Untuk model yang lebih kecil, EfficientTrain++ boleh mencapai peningkatan prestasi yang ketara.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Rajah 13 Keputusan percubaan ImageNet-1K: EfficientTrain++ boleh meningkatkan prestasi sempadan atas model yang lebih kecil dengan ketara

EfficientTrain++ juga berkesan untuk algoritma pembelajaran yang diselia sendiri (seperti MAE).

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Rajah 14 EfficientTrain++ boleh digunakan untuk pembelajaran penyeliaan kendiri (seperti MAE)

Model yang dilatih oleh EfficientTrain++ juga tidak kehilangan prestasi pada tugas hiliran seperti pengesanan sasaran, pembahagian contoh dan pembahagian semantik.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Rajah 15 pengesanan sasaran COCO, pembahagian contoh COCO dan keputusan percubaan segmentasi semantik ADE20K

Atas ialah kandungan terperinci Mudah dan universal: rangkaian asas visual mempercepatkan latihan tanpa kehilangan sehingga 3 kali, Tsinghua EfficientTrain++ dipilih untuk TPAMI 2024. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!