Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3-AI-php.cn

Model bahasa berskala besar semasa seperti GPT, LLaMA, dsb. telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi dan boleh memahami serta menjana kandungan teks yang kompleks. Walau bagaimanapun, bolehkah kita meluaskan pemahaman dan keupayaan penjanaan yang berkuasa ini kepada data multimodal? Idea ini beransur-ansur menjadi kenyataan. Model besar berbilang modal terkini LaVIT dibangunkan oleh Kuaishou dan Universiti Peking. Dengan menggabungkan data imej dan video, ia membolehkan model memahami kandungan multimedia yang besar dengan mudah dan membantu dalam penciptaan kandungan bergambar. Kemunculan LaVIT adalah sangat penting untuk pemahaman dan penciptaan kandungan multimedia. Ia bukan sahaja mengenal pasti objek, adegan dan emosi dalam imej dan video, tetapi juga menjana penerangan bahasa semula jadi yang berkaitan dengannya. Dengan cara ini, kami boleh menggunakan data berbilang modal dengan lebih baik dan mencipta kandungan grafik yang lebih jelas dan menarik. Pembangunan LaVIT ialah percubaan penting dalam model bahasa berskala besar dalam bidang berbilang modal. Ia dijangka membawa lebih banyak kemungkinan kepada pemprosesan dan penciptaan kandungan multimedia dan menggalakkan pembangunan selanjutnya dalam bidang pemprosesan bahasa semula jadi dan penglihatan komputer. .

Model kod Alamat: https://github.com/jy0205/LaVIT

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Gambaran Keseluruhan Model

LaVIT ialah model asas pelbagai mod am baharu yang boleh memahami dan menjana kandungan visual seperti model bahasa. Ia menggunakan pendekatan latihan yang serupa kepada model bahasa besar, menggunakan pendekatan autoregresif untuk meramalkan imej atau token teks seterusnya. Setelah dilatih, LaVIT boleh berfungsi sebagai antara muka multimodal umum yang boleh melaksanakan tugas pemahaman dan penjanaan pelbagai mod tanpa penalaan lebih lanjut. Sebagai contoh, LaVIT boleh mencapai fungsi berikut:
LaVIT ialah model penjanaan teks-ke-imej yang berkuasa yang mampu menjana kualiti tinggi, nisbah aspek berbilang dan imej estetik tinggi berdasarkan gesaan teks yang diberikan. Berbanding dengan model penjanaan imej terkini seperti Parti, SDXL dan DALLE-3, LaVIT mempunyai keupayaan penjanaan imej yang setanding. Apa yang menjadikannya unik ialah keupayaannya menjana imej yang pelbagai sambil mengekalkan kualiti dan estetika yang tinggi. Sama ada dalam orientasi potret atau landskap, LaVIT mampu menghasilkan gubahan imej yang memuaskan. Dengan menggabungkan teknologi canggih dan data latihan berkualiti tinggi, LaVIT menyediakan pengguna dengan teks-ke-graf yang luar biasa

Dalam LaVIT, imej dan teks diwakili sebagai token diskret. Oleh itu, ia boleh memanfaatkan isyarat multimodal untuk penjanaan imej, termasuk gabungan teks, imej+teks dan imej+imej. Penjanaan berbilang modal ini tidak memerlukan sebarang penalaan halus, dan sistem boleh menjana imej yang sepadan berdasarkan gesaan.

LaVIT ialah model pemahaman imej yang boleh membaca imej dan memahami semantiknya. Ia boleh menjana penerangan yang relevan untuk imej input dan menjawab soalan yang berkaitan. .

Peringkat 1: Tokenizer Visual Dinamik

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Untuk dapat memahami dan menjana kandungan visual seperti bahasa semula jadi, LaVIT memperkenalkan tokenizer visual yang direka dengan baik untuk menukar kandungan visual seperti teks) (isyarat seperti berterusan) Urutan token yang sama, seperti bahasa asing yang LLM boleh faham. Penulis percaya bahawa untuk mencapai pemodelan visual dan bahasa bersatu, tokenizer visual (Tokenizer) harus mempunyai dua ciri berikut:

Discretization: Token visual harus diwakili sebagai bentuk diskret seperti teks. Ini menggunakan borang perwakilan bersatu untuk dua modaliti, yang kondusif untuk LaVIT menggunakan kehilangan klasifikasi yang sama untuk pengoptimuman pemodelan pelbagai mod di bawah rangka kerja latihan generatif autoregresif bersatu.
Dynamicifikasi: Tidak seperti token teks, patch imej mempunyai saling kebergantungan yang ketara antara mereka, menjadikannya agak mudah untuk membuat kesimpulan satu patch daripada yang lain. Oleh itu, pergantungan ini mengurangkan keberkesanan matlamat pengoptimuman ramalan token seterusnya LLM asal. LaVIT bercadang untuk mengurangkan lebihan antara patch visual dengan menggunakan penggabungan token, yang mengekodkan nombor dinamik token visual berdasarkan kerumitan semantik yang berbeza bagi imej yang berbeza. Dengan cara ini, untuk imej kerumitan yang berbeza, penggunaan pengekodan token dinamik meningkatkan lagi kecekapan pra-latihan dan mengelakkan pengiraan token berlebihan.

Rajah berikut ialah struktur tokenizer visual yang dicadangkan oleh LaVIT:

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Gambar: (a) Penjana token visual dinamik (b) penggabungan token kepada visual

pemilih dan penggabung token. Seperti yang ditunjukkan dalam rajah, pemilih token digunakan untuk memilih blok imej yang paling bermaklumat, manakala penggabungan token memampatkan maklumat blok visual tidak bermaklumat tersebut ke dalam token yang disimpan untuk mencapai penggabungan token berlebihan. Keseluruhan pembahagian perkataan visual dinamik dilatih dengan memaksimumkan pembinaan semula semantik imej input.

Pemilih token

Pemilih token menerima N ciri peringkat blok imej sebagai input, dan matlamatnya adalah untuk menilai kepentingan setiap blok imej dan memilih blok dengan jumlah maklumat tertinggi , untuk mewakili sepenuhnya semantik keseluruhan imej. Untuk mencapai matlamat ini, modul ringan yang terdiri daripada berbilang lapisan MLP digunakan untuk meramalkan taburan π. Dengan pensampelan daripada taburan π, topeng keputusan binari dijana yang menunjukkan sama ada untuk menyimpan tampung imej yang sepadan.

Penggabung token

Penggabung token membahagikan N blok imej kepada dua kumpulan: kekalkan X_r dan buang X_d mengikut topeng keputusan yang dihasilkan. Tidak seperti membuang X_d secara langsung, penggabung token boleh mengekalkan semantik terperinci imej input ke tahap maksimum. Penggabung token terdiri daripada blok bertindan L, setiap satunya termasuk lapisan perhatian kendiri sebab, lapisan perhatian silang dan lapisan ke hadapan. Dalam lapisan perhatian kendiri sebab, setiap token dalam X_r hanya memberi perhatian kepada token sebelumnya untuk memastikan konsistensi dengan bentuk token teks dalam LLM. Strategi ini berprestasi lebih baik berbanding dengan perhatian diri dua arah. Lapisan perhatian silang mengambil token yang disimpan X_r sebagai pertanyaan dan menggabungkan token dalam X_d berdasarkan persamaan semantiknya.

Fasa 2: Pra-latihan generatif bersatu

Token visual yang diproses oleh tokenizer visual disambungkan dengan token teks untuk membentuk urutan berbilang modal sebagai input untuk latihan. Untuk membezakan kedua-dua modaliti, pengarang memasukkan token khas pada permulaan dan penghujung jujukan token imej: [IMG] dan [/IMG], yang digunakan untuk menunjukkan permulaan dan akhir kandungan visual. Untuk dapat menjana teks dan imej, LaVIT menggunakan dua bentuk sambungan imej-teks: [imej, teks] dan [teks;

Untuk jujukan input berbilang modal ini, LaVIT menggunakan pendekatan bersatu dan autoregresif untuk memaksimumkan secara langsung kemungkinan setiap jujukan berbilang modal untuk pra-latihan. Penyatuan lengkap ruang perwakilan dan kaedah latihan ini membantu LLM mempelajari interaksi dan penjajaran pelbagai mod dengan lebih baik. Selepas pra-latihan selesai, LaVIT mempunyai keupayaan untuk melihat imej dan boleh memahami serta menjana imej seperti teks. . , VizWiz) Mencapai prestasi terkemuka dalam tugasan.

Jadual 1 Penilaian tugasan pemahaman multimodal sifar tembakan

Penjanaan multimodal sifar tembakan

Dalam percubaan ini, memandangkan tokenizer visual yang dicadangkan dapat mewakili imej sebagai token diskret, LaVIT mempunyai keupayaan untuk mensintesis imej dengan menjana token visual seperti teks melalui autoregresi. Penulis menjalankan penilaian kuantitatif prestasi sintesis imej model di bawah keadaan teks sampel sifar, dan keputusan perbandingan ditunjukkan dalam Jadual 2.

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Jadual 2 Teks tangkapan sifar kepada prestasi penjanaan imej model berbeza

Seperti yang dapat dilihat daripada jadual, LaVIT mengatasi semua model bahasa berbilang mod yang lain. Berbanding dengan Emu, LaVIT mencapai peningkatan selanjutnya pada model LLM yang lebih kecil, menunjukkan keupayaan penjajaran visual-verbal yang sangat baik. Tambahan pula, LaVIT mencapai prestasi yang setanding dengan Parti pakar teks-ke-imej terkini sambil menggunakan kurang data latihan.

Penjanaan imej pantas berbilang modal

LaVIT mampu menerima pelbagai kombinasi mod dengan lancar sebagai gesaan dan menjana imej yang sepadan tanpa sebarang penalaan halus. LaVIT menjana imej yang menggambarkan dengan tepat gaya dan semantik isyarat multimodal tertentu. Dan ia boleh mengubah suai imej input asal dengan isyarat multi-modal input. Model penjanaan imej tradisional seperti Stable Diffusion tidak dapat mencapai keupayaan ini tanpa data hiliran tambahan yang diperhalusi.

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

sample hasil generasi imej multi-modal

analisis qualitative

As ditunjukkan dalam angka di bawah, tokenizer dinamik Lavit boleh memilih secara dinamik yang paling bermaklumat berdasarkan imej kandungan Tampalan imej, kod yang dipelajari boleh menghasilkan kod visual dengan semantik peringkat tinggi.

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Visualisasi tokenizer visual dinamik (kiri) dan buku kod yang dipelajari (kanan)

Ringkasan

Kemunculan LaVIT yang berjaya dalam pemprosesan tugasan yang berjaya. paradigma pembelajaran generatif autoregresif LLM dengan menggunakan tokenizer visual dinamik untuk mewakili penglihatan dan bahasa ke dalam perwakilan token diskret bersatu. Dengan mengoptimumkan di bawah matlamat penjanaan bersatu, LaVIT boleh menganggap imej sebagai bahasa asing, memahami dan menjananya seperti teks. Kejayaan kaedah ini memberikan inspirasi baharu untuk hala tuju pembangunan penyelidikan multimodal masa depan, menggunakan keupayaan penaakulan berkuasa LLM untuk membuka kemungkinan baharu bagi pemahaman dan penjanaan multimodal yang lebih bijak dan komprehensif.

🎜

Atas ialah kandungan terperinci Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!