Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China-AI-php.cn

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

PHPz

Lepaskan： 2023-10-19 11:13:01

ke hadapan

1432 orang telah melayarinya

GPT-4V untuk pengesanan sasaran? Ujian sebenar oleh netizen: Belum bersedia lagi.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Walaupun kategori yang dikesan baik-baik saja, kebanyakan kotak sempadan tersasar.

Tidak mengapa, seseorang akan mengambil tindakan!

Mini GPT-4 yang mengalahkan GPT-4 dalam keupayaan melihat imej selama beberapa bulan telah dinaik taraf - MiniGPT-v2. .

Bukan itu sahaja, ia juga boleh mengendalikan pelbagai tugas visual dengan mudah.

Bulatkan objek dan tambah [mengenal pasti] di hadapan perkataan gesaan untuk membolehkan model mengenal pasti nama objek secara langsung.

Sudah tentu, anda juga boleh menambah apa-apa dan bertanya terus~

MiniGPT-v2 terdiri daripada pasukan asal dari MiniGPT-4 (Universiti Sains dan Teknologi KAUST Raja Abdullah di Arab Saudi) dan lima penyelidik dari pembangunan bersama Meta.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Kali terakhir MiniGPT-4 menarik perhatian besar apabila ia keluar, dan pelayan terharu buat seketika Kini projek GitHub telah melebihi 22,000+ bintang.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Dengan peningkatan ini, sesetengah netizen sudah mula menggunakannya~

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Antara muka universal untuk pelbagai tugas visual

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China Sebagai antara muka universal untuk pelbagai aplikasi teks, semua orang telah terbiasa dengannya. Diilhamkan oleh ini, pasukan penyelidik ingin membina antara muka bersatu yang boleh digunakan untuk pelbagai tugas visual, seperti penerangan imej, jawapan soalan visual, dsb.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China "Bagaimana cara menggunakan arahan berbilang modal yang mudah untuk menyelesaikan pelbagai tugas dengan cekap di bawah keadaan satu model telah menjadi masalah yang perlu diselesaikan oleh pasukan?"

Secara ringkasnya, MiniGPT-v2 terdiri daripada tiga bahagian: tulang belakang visual, lapisan linear dan model bahasa besar.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China Model ini berdasarkan tulang belakang visual ViT dan kekal tidak berubah dalam semua peringkat latihan. Empat token output visual bersebelahan diinduksi daripada ViT dan diunjurkan ke dalam ruang model bahasa LLaMA-2 melalui lapisan linear.

Pasukan mengesyorkan menggunakan pengecam unik untuk tugasan berbeza dalam model latihan, supaya model besar boleh membezakan setiap arahan tugas dengan mudah dan meningkatkan kecekapan pembelajaran setiap tugas.

Latihan terbahagi kepada tiga peringkat: pra-latihan - latihan pelbagai tugas - pelarasan arahan berbilang mod.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Pada akhirnya, MiniGPT-v2 mengatasi model umum bahasa visual yang lain dalam banyak jawapan soalan visual dan tanda aras asas visual.

Akhirnya, model ini boleh menyelesaikan pelbagai tugas visual, seperti penerangan objek sasaran, penyetempatan visual, penerangan imej, jawapan soalan visual, dan menghuraikan terus objek imej daripada teks input yang diberikan.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Rakan-rakan yang berminat boleh klik pada pautan Demo di bawah untuk merasainya:

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

https://minigpt-v2.github.io/

https://huggingface.co/spaces/Vision-CAIR/ MiniGPT -v2 Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Pautan kertas: https://arxiv.org/abs/2310.09478

pautanGitHub: https://github.com/Vision-CAIR/MiniGPT-4

Atas ialah kandungan terperinci Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!