Cadangan Besar: Visual-RFT-Projek Sumber Terbuka Visual-RFT-Peningkatan Visual dan Fine-Penalaan untuk Memperkasakan Model Bahasa Visual!
Lajur AIXIV terus memberi tumpuan kepada penyelidikan AI teratas di dunia dan telah menerbitkan lebih daripada 2,000 artikel akademik dan teknikal. Selamat datang untuk menyumbang untuk berkongsi pencapaian cemerlang anda! E -mel penyerahan: liyazhou@jiqizhixin.com;
Projek Visual-RFT (Penguatkuasaan Visual Fine-penalaan) berjaya menerapkan paradigma Pembelajaran Pembelajaran dan Penguatkuasaan Penguatkuasaan (RFT) yang berdasarkan kepada Model Besar Bahasa Visual (LVLM), memecahkan batasan kaedah terdahulu yang terhad kepada teks, matematik dan bidang lain. Dengan merancang ganjaran peraturan khusus untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT memberikan idea baru untuk latihan LVLM!
Rajah 1 menunjukkan keupayaan generalisasi yang kuat dari Visual-RFT: Model ini hanya memerlukan sedikit data untuk mengenal pasti Pokémon tertentu dengan tepat dalam Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber dan mencari koordinatnya.
Rajah 1. Visual-RFT memanjangkan penalaan halus kepada multimodal, dengan hanya 10-1000 keping data untuk meningkatkan prestasi model dengan ketara.
Dari RFT ke Visual-RFT: Terobosan dalam pembelajaran tetulang dalam bidang multimodal
Teknologi penalaan yang dipertingkatkan dengan OpenAI membolehkan penghijrahan keupayaan model dicapai dengan hanya sebilangan kecil sampel. DeepSeek-R1 mendedahkan bahawa kebolehan penalarannya yang kuat berasal dari strategi pembelajaran tetulang berdasarkan ganjaran yang dapat disahkan. Walau bagaimanapun, strategi ini sebelum ini digunakan terutamanya dalam bidang seperti teks dan matematik. Visual-RFT berjaya memperluaskan strategi ini ke medan visual.
Arahan Visual Tradisional Penalaan halus (SFT) memerlukan sejumlah besar data, dan keupayaan pembelajaran sampel kecil Visual-RFT menjadikannya lebih berfaedah dalam senario data yang terhad.
Untuk mengesahkan keupayaan generalisasi Visual-RFT, pasukan penyelidikan menjalankan ujian pada pelbagai tugas visual seperti pengesanan objek, klasifikasi, dan asas. Hasilnya menunjukkan bahawa Visual-RFT dapat mencapai peningkatan prestasi yang signifikan di bawah perbendaharaan kata terbuka, pembelajaran sampel kecil dan tetapan lain, dan lebih baik daripada kaedah SFT. Terutama dalam tugas kedudukan kesimpulan, Visual-RFT menunjukkan keupayaan penalaran visual yang sangat baik. (Lihat kertas untuk maklumat lanjut)
Rajah 2. Visual-RFT melampaui SFT pada pelbagai tugas visual.
Rajah 3. Rajah rangka kerja Visual-RFT, mengemas kini parameter model menggunakan strategi pembelajaran IOU dan CLS dan tetulang.
Pasukan penyelidikan menggunakan ganjaran yang boleh disahkan berasaskan IOU untuk mengesan dan memberi tugas, dan ganjaran CLS berdasarkan ketepatan klasifikasi untuk tugas klasifikasi. (seperti yang ditunjukkan dalam Rajah 3)
Rajah 4. Keputusan kedudukan inferensi menunjukkan bahawa visual-RFT melampaui SFT untuk mencari objek dengan lebih tepat.
Rajah 5. Hasil klasifikasi halus yang menyimpulkan menunjukkan bahawa Visual-RFT melampaui SFT untuk mencari objek dengan lebih tepat.
Rajah 4 dan Rajah 5 menunjukkan hasil output model.
Hasil percubaan visual-RFT
Berdasarkan model QWEN2-VL 2B/7B, Visual-RFT secara komprehensif melepasi SFT dalam pengesanan objek terbuka, pengesanan sampel kecil, klasifikasi halus dan tugas kedudukan kesimpulan. Data eksperimen merangkumi adegan biasa seperti COCO dan LVI dan adegan terbuka seperti watak -watak kartun Internet. Dengan hanya sedikit data, Visual-RFT dapat mencapai penghijrahan keupayaan, menunjukkan prestasi dan keteguhan yang sangat baik.
Rajah 5. Beberapa keputusan eksperimen menunjukkan bahawa Visual-RFT melampaui SFT.
Visual-RFT adalah sumber terbuka!
Projek Visual-RFT adalah sumber terbuka dan mengandungi latihan, kod penilaian dan data. Selamat datang untuk mengambil bahagian!
Alamat Projek: //m.sbmmt.com/link/ec56522bc9c2e15be17d11962eeec453
Atas ialah kandungan terperinci Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!