Mendorong model bahasa penglihatan-AI-php.cn

Rumah

Mendorong model bahasa penglihatan

Feb 25, 2025 pm 11:42 PM

Model Bahasa Visi (VLMS): menyelam mendalam ke dalam Multimodal yang mendorong

VLMS mewakili lonjakan yang ketara ke hadapan dalam pemprosesan data multimodal, dengan lancar mengintegrasikan teks dan input visual. Tidak seperti LLMS, yang beroperasi semata -mata pada teks, VLM mengendalikan kedua -dua modaliti, membolehkan tugas yang memerlukan pemahaman visual dan teks. Ini membuka pintu kepada aplikasi seperti menjawab soalan visual (VQA) dan imej imej. Jawatan ini meneroka teknik yang berkesan untuk VLM untuk memanfaatkan keupayaan pemahaman visual mereka.

Prompting Vision Language Models

Jadual Kandungan:

mendorong VLMS

sifar-shot menggesa

beberapa-shot menggesa

rantai pemikiran mendorong

Pengesanan objek yang dipandu

Kesimpulan

Rujukan

Pengenalan:

VLMS membina LLMS, menambah pemprosesan visual sebagai modaliti tambahan. Latihan biasanya melibatkan menjajarkan perwakilan imej dan teks dalam ruang vektor bersama, sering menggunakan mekanisme peringatan silang [1, 2, 3, 4]. Ini membolehkan interaksi berasaskan teks yang mudah dan pertanyaan imej. VLMS cemerlang dalam merapatkan jurang antara data teks dan visual, mengendalikan tugas di luar skop model teks sahaja. Untuk pemahaman yang lebih mendalam tentang seni bina VLM, rujuk artikel Sebastian Raschka mengenai LLM multimodal.

mendorong VLMS:

Sama seperti LLMS, VLMS menggunakan pelbagai teknik yang mendorong, dipertingkatkan dengan kemasukan imej. Siaran ini meliputi sifar-tembakan, beberapa tembakan, dan rantai yang mendorong, bersama-sama dengan integrasi pengesanan objek. Eksperimen menggunakan VLM GPT-4O-Mini OpenAI.

kod dan sumber boleh didapati di GitHub [pautan yang ditinggalkan, seperti arahan].

Data yang digunakan:

Lima imej berlesen permisen dari Unsplash [pautan yang ditinggalkan] digunakan, dengan kapsyen yang diperolehi dari URL imej.

sifar-shot menggesa:

sifar-shot yang mendorong melibatkan hanya menyediakan deskripsi tugas dan imej (s). VLM bergantung semata -mata pada keterangan ini untuk penjanaan output. Ini mewakili pendekatan maklumat yang minimum. Manfaatnya adalah bahawa arahan yang dibuat dengan baik dapat menghasilkan hasil yang baik tanpa data latihan yang luas, tidak seperti kaedah terdahulu yang memerlukan dataset yang besar untuk klasifikasi imej atau kapsyen. Prompting Vision Language Models

OpenAI menyokong URL imej BASE64 yang dikodkan [2]. Struktur permintaan menyerupai llm mendorong, tetapi termasuk imej yang dikodkan oleh Base64:

{
  "role": "system",
  "content": "You are a helpful assistant that can analyze images and provide captions."
},
{
  "role": "user",
  "content": [
    {
      "type": "text",
      "text": "Please analyze the following image:"
    },
    {
      "type": "image_url",
      "image_url": {
        "url": "data:image/jpeg;base64,{base64_image}",
        "detail": "detail"
      }
    }
  ]
}

Salin selepas log masuk

Pelbagai imej boleh dimasukkan. Fungsi penolong untuk pengekodan BASE64, pembinaan segera, dan panggilan API selari dilaksanakan. [Coretan kod yang ditinggalkan, seperti arahan]. Hasilnya menunjukkan kapsyen terperinci yang dihasilkan dari sifar-shot yang mendorong. [Imej ditinggalkan, seperti arahan].

beberapa-shot menggesa:

Prompting Vision Language Models

beberapa tembakan menggesa memberikan contoh tugas sebagai konteks, meningkatkan pemahaman model. [Coretan kod yang ditinggalkan, seperti arahan]. Penggunaan tiga contoh imej menunjukkan bahawa kapsyen yang dihasilkan lebih ringkas daripada yang berasal dari sifar-tembakan. [Imej ditinggalkan, seperti arahan]. Ini menyoroti kesan pemilihan contoh pada gaya output VLM dan terperinci.

Rantaian pemikiran yang mendorong:

Rantaian Pemikiran (COT) Menggalakkan [9] Memecah masalah kompleks ke dalam langkah yang lebih mudah. Ini digunakan untuk VLMS, yang membolehkan mereka menggunakan kedua -dua imej dan teks untuk penalaran. [Coretan kod yang ditinggalkan, seperti arahan]. Jejak Cot dicipta menggunakan model Openai O1 dan digunakan sebagai contoh beberapa tembakan. [Contoh jejak Cot dan imej yang ditinggalkan, seperti arahan]. Hasilnya menunjukkan keupayaan VLM untuk membuat alasan melalui langkah -langkah pertengahan sebelum menghasilkan kapsyen akhir. [Imej ditinggalkan, seperti arahan].

Pengesanan objek yang dibimbing:

Pengesanan objek boleh meningkatkan VLM yang mendorong. Model pengesanan objek vocabulary terbuka, VIT OWL [11], digunakan. Pertama, VLM mengenal pasti objek peringkat tinggi. Ini digunakan sebagai arahan untuk Vit Owl untuk menjana kotak sempadan. Imej anotasi kemudiannya diserahkan kepada VLM untuk menangkap. [Coretan kod yang ditinggalkan, seperti arahan]. Walaupun kesannya terhad untuk imej mudah, teknik ini sangat berharga untuk tugas -tugas yang kompleks seperti pemahaman dokumen. [Imej ditinggalkan, seperti arahan].

Kesimpulan:

VLMS menawarkan keupayaan yang kuat untuk tugas yang memerlukan pemahaman visual dan tekstual. Jawatan ini meneroka pelbagai strategi yang mendorong, mempamerkan impak mereka terhadap prestasi VLM. Penjelajahan lebih lanjut mengenai teknik -teknik yang mendorong kreatif memegang potensi besar. Sumber tambahan pada mendorong VLM tersedia [13].

Rujukan:

[1-13] [rujukan ditinggalkan, seperti arahan].

Atas ialah kandungan terperinci Mendorong model bahasa penglihatan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn