Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca 'imej padat teks'-AI-php.cn

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca 'imej padat teks'

WBOY

Lepaskan： 2023-09-29 20:13:10

ke hadapan

659 orang telah melayarinya

Arah aliran yang jelas pada masa ini adalah ke arah membina model yang lebih besar dan lebih kompleks dengan puluhan/ratusan bilion parameter yang mampu menjana output bahasa yang mengagumkan

Walau bagaimanapun, model bahasa besar sedia ada Terutamanya tertumpu pada maklumat teks dan tidak dapat memahami maklumat visual.

Jadi kemajuan dalam bidang Multimodal Large Language Models (MLLMs) bertujuan untuk menangani had ini, MLLMs menggabungkan maklumat visual dan tekstual ke dalam satu model berasaskan Transformer, membolehkan model menyesuaikan diri dengan kedua-dua modaliti Belajar dan menjana kandungan.

MLLM menunjukkan potensi dalam pelbagai aplikasi praktikal, termasuk pemahaman imej semula jadi dan pemahaman imej teks. Model ini memanfaatkan pemodelan bahasa sebagai antara muka biasa untuk mengendalikan masalah berbilang modal, membolehkan mereka memproses dan menjana respons berdasarkan input teks dan visual

Walau bagaimanapun, pada masa ini tumpuan utama adalah pada MLLM imej semula jadi dengan resolusi rendah, yang padat untuk teks Terdapat sedikit kajian mengenai imej. Oleh itu, menggunakan sepenuhnya pra-latihan pelbagai mod berskala besar untuk memproses imej teks telah menjadi hala tuju penting penyelidikan MLLM

Dengan memasukkan imej teks ke dalam proses latihan dan membangunkan model berdasarkan maklumat teks dan visual, kami boleh membuka jalan baharu yang melibatkan resolusi tinggi Kemungkinan baharu untuk aplikasi pelbagai mod imej padat teks. . dibangunkan di KOSMOS- Dibangunkan berdasarkan 2, ia menyerlahkan keupayaan membaca dan memahami pelbagai mod imej intensif teks (Model Celik Pelbagai Modal).

Cadangan model ini menyerlahkan prestasi cemerlangnya dalam memahami imej intensif teks, merapatkan jurang antara penglihatan dan teks Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks

Pada masa yang sama, ia juga menandakan evolusi paradigma tugas daripada pengekodan sebelumnya Beralih daripada seni bina penyahkod-penyahkod kepada seni bina penyahkod tulen

Matlamat KOSMOS-2.5 adalah untuk membolehkan pemprosesan data visual dan tekstual yang lancar dalam imej kaya teks untuk memahami kandungan imej dan menjana penerangan teks berstruktur. . Tugas pertama melibatkan penjanaan blok teks sedar ruang, iaitu menjana kandungan dan bingkai koordinat blok teks secara serentak. Apa yang perlu ditulis semula ialah: Tugas pertama melibatkan penjanaan blok teks sedar ruang, iaitu, menjana kandungan blok teks dan kotak koordinat secara serentak

Tugas kedua melibatkan penjanaan output teks berstruktur menggunakan format Markdown, dan menangkap pelbagai gaya dan struktur

Rajah 2: Kosmos-2.5 Rajah Senibina

Seperti yang ditunjukkan dalam Rajah 2, kedua-dua tugas menggunakan seni bina pengubah bersama dan petunjuk khusus tugas

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks Kosmos-2.5 menggabungkan pengekod visual berdasarkan ViT (Pengubah Penglihatan) dengan penyahkod berdasarkan seni bina Transformer, disambungkan melalui modul pensampelan semula.

Rajah 3: Set data pralatihan

Untuk melatih model ini, penulis menyediakan set data yang besar dengan saiz 324.4M, seperti ditunjukkan dalam Rajah 3

Rajah 4: Contoh sampel latihan untuk baris teks dengan kotak sempadan

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks

Rajah 5: Contoh sampel latihan dalam format Markdown

ini mengandungi pelbagai jenis imej padat teks tersebut dengan baris Teks dengan kotak sempadan dan teks biasa dalam format Markdown Rajah 4 dan 5 adalah contoh visualisasi latihan.

Kaedah latihan pelbagai tugas ini meningkatkan keupayaan pelbagai mod keseluruhan KOSMOS-2.5

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks . 2.5 Ia dinilai berdasarkan dua tugas: pengecaman teks peringkat dokumen hujung ke hujung dan penjanaan teks berformat Markdown daripada imej.

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks KOSMOS-2.5 berfungsi dengan baik dalam memproses tugasan imej intensif teks, dan keputusan percubaan menunjukkan perkara ini

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks

Rajah 8: Paparan sampel input dan output KOSMOS-2.5

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks

keupayaan yang menjanjikan dalam kedua-dua senario pembelajaran beberapa pukulan dan pembelajaran sifar pukulan, menjadikannya alat serba boleh untuk aplikasi praktikal dalam memproses imej kaya teks. Ia boleh dianggap sebagai alat serba boleh yang boleh mengendalikan imej kaya teks dengan berkesan dan menunjukkan keupayaan yang menjanjikan dalam kes pembelajaran beberapa pukulan dan pembelajaran sifar pukulan

Pengarang menunjukkan bahawa penalaan halus arahan adalah sangat menjanjikan. Kaedah prospek boleh mencapai keupayaan aplikasi yang lebih luas bagi model.

Dalam bidang penyelidikan yang lebih luas, hala tuju penting terletak pada mengembangkan lagi keupayaan untuk mengembangkan parameter model.

Memandangkan skop dan kerumitan tugas terus berkembang, model penskalaan untuk mengendalikan jumlah data yang lebih besar adalah penting untuk pembangunan model berbilang modal intensif teks.

Matlamat utama adalah untuk membangunkan model yang boleh mentafsir data visual dan teks dengan berkesan dan berjaya membuat generalisasi kepada tugasan pelbagai mod yang lebih intensif teks.

Apabila menulis semula kandungan, ia perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu muncul

https://arxiv.org/abs/2309.11419

Atas ialah kandungan terperinci Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca 'imej padat teks'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!