Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti-AI-php.cn

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

WBOY

Lepaskan： 2024-01-29 09:15:26

ke hadapan

1016 orang telah melayarinya

Sebuah "model besar berbilang modal pertama orang muda" yang dipanggil Vary-toy ada di sini!

Saiz model kurang daripada 2B, ia boleh dilatih pada kad grafik gred pengguna, dan ia boleh berjalan dengan mudah pada kad grafik lama GTX1080ti 8G.

Ingin menukar imej dokumen kepada format Markdown? Pada masa lalu, berbilang langkah seperti pengecaman teks, pengesanan dan pengisihan reka letak, pemprosesan jadual formula dan pembersihan teks diperlukan.

Kini anda hanya memerlukan satu arahan:

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

Tidak kira Bahasa Cina atau Inggeris, teks besar dalam gambar boleh diekstrak dalam beberapa minit:

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

Pengesanan objek pada gambar tertentu masih boleh memberi koordinat:

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

Kajian ini dicadangkan bersama oleh penyelidik dari Megvii, Universiti Sains dan Teknologi Kebangsaan, dan Universiti Huazhong.

Menurut laporan, walaupun Vary-toy kecil, ia merangkumi hampir semua keupayaan dalam penyelidikan arus perdana semasa LVLM(Model Bahasa Visual Skala Besar): pengecaman OCR dokumen(OCR Dokumen), kedudukan visual(Visual Pembumian) , Kapsyen Imej, Menjawab Soalan Visual (VQA) .

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

Kini, kod dan model Vary-toy adalah sumber terbuka, dan terdapat demo dalam talian untuk anda cuba.

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

Sambil menyatakan minat, netizen menumpukan perhatian kepada

GTX1080 lama, dan mood mereka seperti:

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

"versi miniatur" Vary

yang dikeluarkan oleh pasukan Vary pada awal Disember tahun lepas Hasil penyelidikan pertama ialah "Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models".

Para penyelidik menunjukkan kelemahan senarai perkataan visual CLIP dalam keupayaan persepsi yang padat, dan menggunakan skema pengembangan senarai perkataan yang mudah dan berkesan untuk menyediakan paradigma OCR baharu.

Vary telah mendapat perhatian meluas sejak dikeluarkan pada masa ini, ia mempunyai 1.2k+ bintang di Github

, tetapi ramai orang tidak dapat menjalankannya kerana sumber yang terhad.

Memandangkan terdapat sedikit VLM "kecil" yang mempunyai sumber terbuka yang baik dan mempunyai prestasi yang sangat baik, pasukan itu baru mengeluarkan Vary-toy, yang dikenali sebagai "model besar berbilang mod pertama orang muda".

Berbanding dengan Vary, Vary-toy bukan sahaja lebih kecil, tetapi juga melatih

perbendaharaan kata visual yang lebih kuat Perbendaharaan kata baharu tidak lagi mengehadkan model kepada OCR peringkat dokumen, tetapi memberikan perbendaharaan kata visual yang lebih sejagat dan komprehensif. yang bukan sahaja boleh melakukan OCR peringkat dokumen, tetapi juga pengesanan sasaran visual umum. Jadi bagaimana ini dilakukan?

Struktur model dan proses latihan Vary-toy ditunjukkan dalam rajah di bawah Secara umumnya, latihan dibahagikan kepada dua peringkat.

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti Pertama sekali, pada peringkat pertama, struktur Vary-tiny+ digunakan untuk pra-melatih perbendaharaan kata visual yang lebih baik daripada Vary asal Kosa kata visual baharu menyelesaikan masalah yang hanya digunakan oleh Vary asal untuk OCR peringkat dokumen Masalah pembaziran kapasiti dan masalah tidak menggunakan sepenuhnya kelebihan pra-latihan SAM.

Kemudian pada peringkat kedua, perbendaharaan kata visual yang dilatih pada peringkat pertama digabungkan ke dalam struktur akhir untuk latihan pelbagai tugas/SFT.

Seperti yang kita sedia maklum, nisbah data yang baik adalah penting untuk menjana VLM dengan keupayaan menyeluruh.

Jadi dalam peringkat pra-latihan, Vary-toy menggunakan data daripada 5 jenis tugasan untuk membina dialog Nisbah data dan gesaan sampel adalah seperti yang ditunjukkan dalam rajah di bawah:

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti Dalam peringkat SFT, hanya LLaVA. -80K data telah digunakan. Untuk butiran lanjut teknikal, sila lihat laporan teknikal Vary-toy.

Keputusan ujian eksperimen

Markah pelbagai mainan dalam empat ujian penanda aras DocVQA, ChartQA, RefCOCO dan MMVet adalah seperti berikut:

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

Vary-toy boleh mencapai 65.6% ANLS pada DocVQA, 59.1% ketepatan pada ChartQA, dan 88.1% ketepatan pada RefCOCO:

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

MMVet boleh mencapai ketepatan 29% daripada segi visual atau penanda aras , Vary-toy, yang kurang daripada 2B, malah boleh bersaing dengan prestasi beberapa model 7B yang popular.

Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti

Pautan projek:
[1]https://arxiv.org/abs/2401.12503
[3]https://varytoy.github.io/

Atas ialah kandungan terperinci Model besar berbilang modal disukai oleh golongan muda dalam talian dengan sumber terbuka: dengan mudah menjalankan 1080Ti. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!