Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal-Kajian perkakasan-php.cn

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Barbara Streisand

Lepaskan： 2025-03-12 13:03:01

asal

741 orang telah melayarinya

Penyelidik dari Universiti Shanghai Jiaoto, Shanghai AI Lab dan Universiti Cina Hong Kong telah melancarkan projek sumber terbuka Visual-RFT (Visual Fine Fine Tuning), yang hanya memerlukan sedikit data untuk meningkatkan prestasi mockups bahasa visual (LVLM). Visual-RFT bijak menggabungkan pendekatan pembelajaran tetulang berasaskan peraturan DeepSeek-R1 dengan paradigma penalaan Fine-Penalaan Terbuka (RFT) OpenAI, berjaya memperluaskan pendekatan ini dari medan teks ke medan visual.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Dengan merancang ganjaran peraturan yang sepadan untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT mengatasi batasan kaedah DeepSeek-R1 yang terhad kepada teks, penalaran matematik dan bidang lain, menyediakan cara baru untuk latihan LVLM.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Kelebihan Visual-RFT:

Berbanding dengan kaedah pengajaran visual tradisional (SFT), Visual-RFT mempunyai kelebihan penting berikut:

Kurang keupayaan pembelajaran sampel: Hanya 10 hingga 1000 keping data boleh digunakan untuk mencapai penalaan yang berkesan.
Generalisasi yang lebih kuat: Dalam senario dengan data terhad, prestasi lebih baik daripada SFT.

Para penyelidik mengesahkan Visual-RFT pada pelbagai tugas persepsi visual (pengesanan, klasifikasi, lokasi, dan lain-lain), dan hasilnya menunjukkan bahawa visual-RFT mencapai peningkatan prestasi yang signifikan dan pemindahan keupayaan yang mudah dicapai walaupun di bawah tetapan perbendaharaan kata terbuka dan pembelajaran sampel kecil.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Para penyelidik yang direka dengan ganjaran yang dapat disahkan untuk tugas-tugas yang berbeza: ganjaran berasaskan IOU digunakan untuk mengesan dan menempatkan tugas, dan ganjaran berasaskan klasifikasi yang dibenarkan digunakan untuk tugas klasifikasi.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Dalam tugas kedudukan kesimpulan, Visual-RFT menunjukkan keupayaan penalaran visual yang kuat, seperti dengan tepat mengenal pasti gelas kalis air yang perlu dipakai oleh atlet dalam gambar.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Hasil eksperimen:

Eksperimen berdasarkan model QWEN2-VL 2B/7B menunjukkan bahawa Visual-RFT lebih tinggi daripada SFT dalam pengesanan objek terbuka, pengesanan sampel kecil, klasifikasi halus dan tugas kedudukan kesimpulan. Walaupun anda mengesan watak anime tertentu (seperti lendir), Visual-RFT boleh dicapai dengan hanya sedikit data.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Maklumat Sumber Terbuka:

Projek Visual-RFT adalah sumber terbuka dan mengandungi latihan, kod penilaian dan data.

Alamat Projek: //m.sbmmt.com/link/ec56522bc9c2e15be17d11962eeec453

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Atas ialah kandungan terperinci Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!