Memahami imej 4K HD dengan mudah! Model berbilang modal besar ini secara automatik menganalisis kandungan poster web, menjadikannya sangat mudah untuk pekerja.-Kajian perkakasan-php.cn

Model besar yang boleh menganalisis kandungan PDF, halaman web, poster dan carta Excel secara automatik tidak terlalu mudah untuk pekerja sambilan.

Model InternLM-XComposer2-4KHD (disingkatkan IXC2-4KHD) yang dicadangkan oleh Shanghai AI Lab, Universiti China Hong Kong dan institusi penyelidikan lain menjadikan perkara ini menjadi kenyataan.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Berbanding dengan model besar berbilang modal lain yang mempunyai had resolusi tidak lebih daripada 1500x1500, kerja ini meningkatkan imej input maksimum model besar berbilang mod kepada lebih daripada 4K (3840 x1600) resolusi dan menyokong sebarang Nisbah panjang dan lebar serta 336 piksel ~ 4K perubahan resolusi dinamik.

Tiga hari selepas dikeluarkan, model itu mengungguli senarai populariti model soalan dan jawapan visual Hugging Face. . ), dan bertanya kertas mana Model yang mempunyai prestasi tertinggi pada MBench.

Perlu diambil perhatian bahawa maklumat ini tidak disebut dalam bahagian teks tangkapan skrin input, tetapi hanya muncul dalam carta radar yang agak rumit. Berdepan dengan soalan yang rumit itu, IXC2-4KHD berjaya memahami maklumat dalam carta radar dan menjawab soalan dengan betul. 轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Berdepan dengan input imej resolusi yang lebih ekstrem (816 x 5133), IXC2-4KHD dengan mudah memahami bahawa imej itu terdiri daripada 7 bahagian dan menerangkan dengan tepat kandungan maklumat teks yang terkandung dalam setiap bahagian.

Seterusnya, penyelidik juga menguji secara menyeluruh keupayaan IXC2-4KHD pada 16 penunjuk penilaian model besar pelbagai mod, di mana 5 penilaian (DocVQA, ChartQA, InfographicVQA, TextVQA) berfokus pada resolusi tinggi OCRBenchVQA, keupayaan pemahaman imej kadar model.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便 Hanya menggunakan parameter 7B, IXC2-4KHD mencapai hasil yang setanding atau bahkan mengatasi GPT4V dan Gemini Pro dalam 10 penilaian, menunjukkan bahawa ia tidak terhad kepada pemahaman imej resolusi tinggi, tetapi serba boleh untuk pelbagai tugas dan senario .

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便 △Prestasi IXC2-4KHD dengan hanya parameter 7B adalah setanding dengan GPT-4V dan Gemini-Pro Bagaimana untuk mencapai resolusi dinamik 4K?

Untuk mencapai matlamat peleraian dinamik 4K, IXC2-4KHD menyertakan tiga reka bentuk utama:

(1) Latihan resolusi dinamik:

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

△4K strategi pemprosesan imej resolusi

DalamC2-4kerja

, imej input diperbesarkan secara rawak kepada saiz perantaraan antara kawasan input dan kawasan maksimum (tidak melebihi 55x336x336, bersamaan dengan resolusi 3840x1617) sambil mengekalkan nisbah bidang.

Selepas itu, imej dipotong secara automatik kepada berbilang kawasan 336x336 untuk mengekstrak ciri visual masing-masing. Strategi latihan resolusi dinamik ini membolehkan model menyesuaikan diri dengan input visual bagi sebarang resolusi, sambil juga mengimbangi masalah data latihan resolusi tinggi yang tidak mencukupi.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便 Percubaan menunjukkan bahawa apabila had atas resolusi dinamik meningkat, model mencapai peningkatan prestasi yang stabil pada tugas pemahaman imej resolusi tinggi (InfographicVQA, DocVQA, TextVQA), dan masih tidak mencapai sempadan atas pada resolusi 4K, menunjukkan Potensi untuk selanjutnya pengembangan pada resolusi yang lebih tinggi.

(2) Tambah maklumat susun atur jubin:

Untuk membolehkan model menyesuaikan diri dengan resolusi dinamik yang berubah-ubah, penyelidik mendapati bahawa adalah perlu untuk menambah maklumat susun atur jubin sebagai input tambahan. Untuk mencapai matlamat ini, penyelidik menggunakan strategi mudah: token khas 'baris baharu' ('n') dimasukkan selepas setiap baris jubin untuk memaklumkan model susun atur jubin. Percubaan menunjukkan bahawa menambah maklumat susun atur jubin mempunyai sedikit kesan pada latihan resolusi dinamik dengan perubahan yang agak kecil (HD9 mewakili bilangan kawasan jubin tidak melebihi 9), tetapi boleh membawa peningkatan prestasi yang ketara kepada latihan resolusi 4K dinamik .

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

(3) Memperluaskan resolusi semasa fasa inferens

Para penyelidik juga mendapati bahawa menggunakan model resolusi dinamik, resolusi boleh terus dikembangkan semasa fasa inferens dengan meningkatkan had atas jubin maksimum, dan membawa keuntungan prestasi tambahan . Contohnya, dengan menguji model terlatih pada HD9 (sehingga 9 blok) secara terus menggunakan HD16, peningkatan prestasi sehingga 8% boleh diperhatikan pada InfographicVQA.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

IXC2-4KHD meningkatkan resolusi yang disokong oleh model besar berbilang mod ke tahap 4K. Penyelidik berkata bahawa strategi semasa menyokong input imej yang lebih besar dengan meningkatkan bilangan jubin menghadapi kekangan kos pengiraan dan memori video. jadi mereka merancang untuk mencadangkan strategi yang lebih cekap untuk mencapai sokongan resolusi yang lebih tinggi pada masa hadapan.

Pautan kertas:

https://arxiv.org/pdf/2404.06512.pdf

Pautan projek:

https://github.com/InternLM/InternLM-XComposer

—Tamatkan—

penyerahan anda E-mel ke:

ai@qbitai.com

Nyatakan tajuk dan beritahu kami:

Siapa anda, dari mana anda, kandungan penyerahan anda

Lampirkan pautan halaman utama kertas/projek, dan maklumat hubungan

Kami akan ( Cuba yang terbaik untuk membalas anda tepat pada masanya tentang kemajuan sains dan teknologi yang canggih~

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Atas ialah kandungan terperinci Memahami imej 4K HD dengan mudah! Model berbilang modal besar ini secara automatik menganalisis kandungan poster web, menjadikannya sangat mudah untuk pekerja.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!