Model bahasa berskala besar semasa seperti GPT, LLaMA, dsb. telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi dan boleh memahami serta menjana kandungan teks yang kompleks. Walau bagaimanapun, bolehkah kita meluaskan pemahaman dan keupayaan penjanaan yang berkuasa ini kepada data multimodal? Idea ini beransur-ansur menjadi kenyataan. Model besar berbilang modal terkini LaVIT dibangunkan oleh Kuaishou dan Universiti Peking. Dengan menggabungkan data imej dan video, ia membolehkan model memahami kandungan multimedia yang besar dengan mudah dan membantu dalam penciptaan kandungan bergambar. Kemunculan LaVIT adalah sangat penting untuk pemahaman dan penciptaan kandungan multimedia. Ia bukan sahaja mengenal pasti objek, adegan dan emosi dalam imej dan video, tetapi juga menjana penerangan bahasa semula jadi yang berkaitan dengannya. Dengan cara ini, kami boleh menggunakan data berbilang modal dengan lebih baik dan mencipta kandungan grafik yang lebih jelas dan menarik. Pembangunan LaVIT ialah percubaan penting dalam model bahasa berskala besar dalam bidang berbilang modal. Ia dijangka membawa lebih banyak kemungkinan kepada pemprosesan dan penciptaan kandungan multimedia dan menggalakkan pembangunan selanjutnya dalam bidang pemprosesan bahasa semula jadi dan penglihatan komputer. .
Model kod Alamat: https://github.com/jy0205/LaVIT
Gambaran Keseluruhan Model
LaVIT ialah model pemahaman imej yang boleh membaca imej dan memahami semantiknya. Ia boleh menjana penerangan yang relevan untuk imej input dan menjawab soalan yang berkaitan. .
Peringkat 1: Tokenizer Visual Dinamik
Untuk dapat memahami dan menjana kandungan visual seperti bahasa semula jadi, LaVIT memperkenalkan tokenizer visual yang direka dengan baik untuk menukar kandungan visual seperti teks) (isyarat seperti berterusan) Urutan token yang sama, seperti bahasa asing yang LLM boleh faham. Penulis percaya bahawa untuk mencapai pemodelan visual dan bahasa bersatu, tokenizer visual (Tokenizer) harus mempunyai dua ciri berikut:
Rajah berikut ialah struktur tokenizer visual yang dicadangkan oleh LaVIT:
Gambar: (a) Penjana token visual dinamik (b) penggabungan token kepada visual
pemilih dan penggabung token. Seperti yang ditunjukkan dalam rajah, pemilih token digunakan untuk memilih blok imej yang paling bermaklumat, manakala penggabungan token memampatkan maklumat blok visual tidak bermaklumat tersebut ke dalam token yang disimpan untuk mencapai penggabungan token berlebihan. Keseluruhan pembahagian perkataan visual dinamik dilatih dengan memaksimumkan pembinaan semula semantik imej input.
Pemilih token
Pemilih token menerima N ciri peringkat blok imej sebagai input, dan matlamatnya adalah untuk menilai kepentingan setiap blok imej dan memilih blok dengan jumlah maklumat tertinggi , untuk mewakili sepenuhnya semantik keseluruhan imej. Untuk mencapai matlamat ini, modul ringan yang terdiri daripada berbilang lapisan MLP digunakan untuk meramalkan taburan π. Dengan pensampelan daripada taburan π, topeng keputusan binari dijana yang menunjukkan sama ada untuk menyimpan tampung imej yang sepadan.
Penggabung token
Penggabung token membahagikan N blok imej kepada dua kumpulan: kekalkan X_r dan buang X_d mengikut topeng keputusan yang dihasilkan. Tidak seperti membuang X_d secara langsung, penggabung token boleh mengekalkan semantik terperinci imej input ke tahap maksimum. Penggabung token terdiri daripada blok bertindan L, setiap satunya termasuk lapisan perhatian kendiri sebab, lapisan perhatian silang dan lapisan ke hadapan. Dalam lapisan perhatian kendiri sebab, setiap token dalam X_r hanya memberi perhatian kepada token sebelumnya untuk memastikan konsistensi dengan bentuk token teks dalam LLM. Strategi ini berprestasi lebih baik berbanding dengan perhatian diri dua arah. Lapisan perhatian silang mengambil token yang disimpan X_r sebagai pertanyaan dan menggabungkan token dalam X_d berdasarkan persamaan semantiknya.
Fasa 2: Pra-latihan generatif bersatu
Token visual yang diproses oleh tokenizer visual disambungkan dengan token teks untuk membentuk urutan berbilang modal sebagai input untuk latihan. Untuk membezakan kedua-dua modaliti, pengarang memasukkan token khas pada permulaan dan penghujung jujukan token imej: [IMG] dan [/IMG], yang digunakan untuk menunjukkan permulaan dan akhir kandungan visual. Untuk dapat menjana teks dan imej, LaVIT menggunakan dua bentuk sambungan imej-teks: [imej, teks] dan [teks;
Untuk jujukan input berbilang modal ini, LaVIT menggunakan pendekatan bersatu dan autoregresif untuk memaksimumkan secara langsung kemungkinan setiap jujukan berbilang modal untuk pra-latihan. Penyatuan lengkap ruang perwakilan dan kaedah latihan ini membantu LLM mempelajari interaksi dan penjajaran pelbagai mod dengan lebih baik. Selepas pra-latihan selesai, LaVIT mempunyai keupayaan untuk melihat imej dan boleh memahami serta menjana imej seperti teks. . , VizWiz) Mencapai prestasi terkemuka dalam tugasan.
Jadual 1 Penilaian tugasan pemahaman multimodal sifar tembakan
Penjanaan multimodal sifar tembakan
Dalam percubaan ini, memandangkan tokenizer visual yang dicadangkan dapat mewakili imej sebagai token diskret, LaVIT mempunyai keupayaan untuk mensintesis imej dengan menjana token visual seperti teks melalui autoregresi. Penulis menjalankan penilaian kuantitatif prestasi sintesis imej model di bawah keadaan teks sampel sifar, dan keputusan perbandingan ditunjukkan dalam Jadual 2.
Jadual 2 Teks tangkapan sifar kepada prestasi penjanaan imej model berbeza
Seperti yang dapat dilihat daripada jadual, LaVIT mengatasi semua model bahasa berbilang mod yang lain. Berbanding dengan Emu, LaVIT mencapai peningkatan selanjutnya pada model LLM yang lebih kecil, menunjukkan keupayaan penjajaran visual-verbal yang sangat baik. Tambahan pula, LaVIT mencapai prestasi yang setanding dengan Parti pakar teks-ke-imej terkini sambil menggunakan kurang data latihan.
Penjanaan imej pantas berbilang modal
LaVIT mampu menerima pelbagai kombinasi mod dengan lancar sebagai gesaan dan menjana imej yang sepadan tanpa sebarang penalaan halus. LaVIT menjana imej yang menggambarkan dengan tepat gaya dan semantik isyarat multimodal tertentu. Dan ia boleh mengubah suai imej input asal dengan isyarat multi-modal input. Model penjanaan imej tradisional seperti Stable Diffusion tidak dapat mencapai keupayaan ini tanpa data hiliran tambahan yang diperhalusi.
sample hasil generasi imej multi-modal
analisis qualitative
As ditunjukkan dalam angka di bawah, tokenizer dinamik Lavit boleh memilih secara dinamik yang paling bermaklumat berdasarkan imej kandungan Tampalan imej, kod yang dipelajari boleh menghasilkan kod visual dengan semantik peringkat tinggi.
Visualisasi tokenizer visual dinamik (kiri) dan buku kod yang dipelajari (kanan)
Kemunculan LaVIT yang berjaya dalam pemprosesan tugasan yang berjaya. paradigma pembelajaran generatif autoregresif LLM dengan menggunakan tokenizer visual dinamik untuk mewakili penglihatan dan bahasa ke dalam perwakilan token diskret bersatu. Dengan mengoptimumkan di bawah matlamat penjanaan bersatu, LaVIT boleh menganggap imej sebagai bahasa asing, memahami dan menjananya seperti teks. Kejayaan kaedah ini memberikan inspirasi baharu untuk hala tuju pembangunan penyelidikan multimodal masa depan, menggunakan keupayaan penaakulan berkuasa LLM untuk membuka kemungkinan baharu bagi pemahaman dan penjanaan multimodal yang lebih bijak dan komprehensif.
🎜Atas ialah kandungan terperinci Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!