Model gergasi Ali adalah sumber terbuka lagi! Ia mempunyai pemahaman imej yang lengkap dan fungsi pengecaman objek Ia dilatih berdasarkan set masalah umum 7B dan boleh dilaksanakan untuk aplikasi komersial.-AI-php.cn

WBOY

Lepaskan： 2023-09-03 13:01:08

ke hadapan

694 orang telah melayarinya

Alibaba telah membuka model besar baharu, yang sangat mengujakan~

Mengikuti Tongyi Qianwen-7B(Qwen-7B), Alibaba Cloud telah melancarkan model bahasa visual berskala besar Qwen-VL, Dan ia akan menjadi sumber terbuka terus sebaik sahaja ia masuk dalam talian.

Qwen-VL ialah model berbilang modal besar berdasarkan Tongyi Qianwen-7B Secara khusus, ia menyokong berbilang input seperti imej, teks dan bingkai pengesanan, dan bukan sahaja boleh mengeluarkan teks, tetapi juga bingkai Pengesanan boleh. output

Contohnya, kita masukkan gambar Aniya Melalui bentuk soal jawab, Qwen-VL-Chat boleh meringkaskan kandungan gambar dan mengesan Aniya dalam gambar dengan tepat

Dalam tugasan ujian, Qwen-VL menunjukkan kekuatan "Hexagonal Warrior", menduduki tempat pertama dalam penilaian bahasa Inggeris standard bagi empat kategori utama tugasan berbilang modal (Zero-shot Caption/VQA/DocVQA/Grounding Keputusan yang paling maju telah dicapai).

Sebaik sahaja berita sumber terbuka keluar, ia serta-merta menarik perhatian meluas

Mari kita lihat persembahan khusus!

Model universal pertama yang menyokong kedudukan domain terbuka Cina

Pertama sekali, mari kita lihat secara keseluruhan ciri-ciri model siri Qwen-VL:

dialog berbilang bahasa: menyokong dialog berbilang bahasa, tamat -to-end sokongan untuk bahasa Cina dan Inggeris dalam gambar Pengecaman teks dwibahasa yang panjang; model umum pertama yang menyokong kedudukan domain terbuka bahasa Cina: melalui ungkapan bahasa domain terbuka Cina Anotasi bingkai pengesanan, iaitu objek sasaran boleh ditemui dengan tepat dalam gambar
Pengiktirafan dan pemahaman halus: Berbanding dengan resolusi 224 yang digunakan oleh; LVLM sumber terbuka lain
(model bahasa visual berskala besar)
, Qwen- VL ialah model LVLM resolusi 448 sumber terbuka yang pertama. Peleraian yang lebih tinggi boleh meningkatkan pengecaman teks yang terperinci, menjawab soalan dokumen dan anotasi kotak pengesanan. Tanpa mengubah maksud asal, kandungan yang perlu ditulis semula ialah: Qwen-VL boleh digunakan dalam senario seperti soal jawab pengetahuan, soal jawab imej, soal jawab dokumen, kedudukan visual yang halus, dsb. .

Masukkan input berbilang gambar lagi Dan ujian perbandingan

Walaupun Aniya tidak diiktiraf, penilaian emosinya memang agak tepat (manual dog head)

Model gergasi Ali adalah sumber terbuka lagi! Ia mempunyai pemahaman imej yang lengkap dan fungsi pengecaman objek Ia dilatih berdasarkan set masalah umum 7B dan boleh dilaksanakan untuk aplikasi komersial. Dari segi kebolehan kedudukan visual, walaupun gambar sangat kompleks dan banyak watak, Qwen-VL masih boleh beraksi mengikut keperluan Mengenal pasti Hulk dan Spider-Man dengan tepat

Qwen-VL menggunakan Qwen-7B sebagai model bahasa asas dalam butiran teknikal, dan dengan memperkenalkan pengekod visual ViT dan penyesuai bahasa visual menyedari kedudukan, model ini boleh menyokong input isyarat Visual

Proses latihan khusus dibahagikan kepada tiga langkah:

Pra-latihan: hanya optimumkan pengekod visual dan penyesuai bahasa visual, dan bekukan model bahasa. Menggunakan data berpasangan imej-teks berskala besar, resolusi imej input ialah 224x224.
Pralatihan berbilang tugas: Memperkenalkan data bahasa visual berbilang tugas beresolusi tinggi (448x448), seperti VQA, teks VQA, pemahaman rujukan, dsb., untuk pra-latihan bersama berbilang tugas.
Penalaan halus diselia: bekukan pengekod visual, optimumkan model bahasa dan penyesuai. Gunakan data interaksi dialog untuk penalaan segera untuk mendapatkan model Qwen-VL-Chat akhir dengan keupayaan interaktif.

Dalam penilaian bahasa Inggeris standard Qwen-VL, penyelidik menguji empat kategori utama tugas berbilang modal (Kapsyen Zero-shot/VQA/DocVQA/Grounding)

Mengikut keputusan The best, Qwen-VL keputusan dicapai apabila membandingkan dengan LVLM sumber terbuka dengan saiz yang sama

Selain itu, penyelidik membina set ujian TouchStone berdasarkan mekanisme pemarkahan GPT-4.

Qwen-VL-Chat mencapai teknologi terkini (SOTA) dalam ujian perbandingan ini

Jika anda berminat dengan Qwen-VL, anda boleh mencari demo di komuniti sihir dan huggingface Datang dan cuba terus. Pautan disediakan pada penghujung artikel

Qwen-VL menyokong penyelidik dan pembangun untuk pembangunan sekunder dan membenarkan penggunaan komersial. Tetapi perlu diingat bahawa jika anda ingin menggunakannya secara komersial, anda perlu mengisi permohonan soal selidik terlebih dahulu

Pautan projek: https://modelscope.cn/models/qwen/Qwen-VL/summary
https://modelscope .cn/models/qwen/Qwen-VL-Chat/summary
https://huggingface.co/Qwen/Qwen-VL
https://huggingface.co/Qwen/Qwen -VL-Chat
https://github.com/QwenLM/Qwen-VL

Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/abs/2308.12966

Atas ialah kandungan terperinci Model gergasi Ali adalah sumber terbuka lagi! Ia mempunyai pemahaman imej yang lengkap dan fungsi pengecaman objek Ia dilatih berdasarkan set masalah umum 7B dan boleh dilaksanakan untuk aplikasi komersial.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!