Rumah Peranti teknologi AI Mendorong model bahasa penglihatan

Mendorong model bahasa penglihatan

Feb 25, 2025 pm 11:42 PM

Model Bahasa Visi (VLMS): menyelam mendalam ke dalam Multimodal yang mendorong

VLMS mewakili lonjakan yang ketara ke hadapan dalam pemprosesan data multimodal, dengan lancar mengintegrasikan teks dan input visual. Tidak seperti LLMS, yang beroperasi semata -mata pada teks, VLM mengendalikan kedua -dua modaliti, membolehkan tugas yang memerlukan pemahaman visual dan teks. Ini membuka pintu kepada aplikasi seperti menjawab soalan visual (VQA) dan imej imej. Jawatan ini meneroka teknik yang berkesan untuk VLM untuk memanfaatkan keupayaan pemahaman visual mereka.

Prompting Vision Language Models

Jadual Kandungan:

    Pengenalan
  1. mendorong VLMS
  2. sifar-shot menggesa
  3. beberapa-shot menggesa
  4. rantai pemikiran mendorong
  5. Pengesanan objek yang dipandu
  6. Kesimpulan
  7. Rujukan
Pengenalan:

VLMS membina LLMS, menambah pemprosesan visual sebagai modaliti tambahan. Latihan biasanya melibatkan menjajarkan perwakilan imej dan teks dalam ruang vektor bersama, sering menggunakan mekanisme peringatan silang [1, 2, 3, 4]. Ini membolehkan interaksi berasaskan teks yang mudah dan pertanyaan imej. VLMS cemerlang dalam merapatkan jurang antara data teks dan visual, mengendalikan tugas di luar skop model teks sahaja. Untuk pemahaman yang lebih mendalam tentang seni bina VLM, rujuk artikel Sebastian Raschka mengenai LLM multimodal.

mendorong VLMS:

Sama seperti LLMS, VLMS menggunakan pelbagai teknik yang mendorong, dipertingkatkan dengan kemasukan imej. Siaran ini meliputi sifar-tembakan, beberapa tembakan, dan rantai yang mendorong, bersama-sama dengan integrasi pengesanan objek. Eksperimen menggunakan VLM GPT-4O-Mini OpenAI.

kod dan sumber boleh didapati di GitHub [pautan yang ditinggalkan, seperti arahan].

Data yang digunakan:

Lima imej berlesen permisen dari Unsplash [pautan yang ditinggalkan] digunakan, dengan kapsyen yang diperolehi dari URL imej.

sifar-shot menggesa:

sifar-shot yang mendorong melibatkan hanya menyediakan deskripsi tugas dan imej (s). VLM bergantung semata -mata pada keterangan ini untuk penjanaan output. Ini mewakili pendekatan maklumat yang minimum. Manfaatnya adalah bahawa arahan yang dibuat dengan baik dapat menghasilkan hasil yang baik tanpa data latihan yang luas, tidak seperti kaedah terdahulu yang memerlukan dataset yang besar untuk klasifikasi imej atau kapsyen. Prompting Vision Language Models

OpenAI menyokong URL imej BASE64 yang dikodkan [2]. Struktur permintaan menyerupai llm mendorong, tetapi termasuk imej yang dikodkan oleh Base64:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

{

  "role": "system",

  "content": "You are a helpful assistant that can analyze images and provide captions."

},

{

  "role": "user",

  "content": [

    {

      "type": "text",

      "text": "Please analyze the following image:"

    },

    {

      "type": "image_url",

      "image_url": {

        "url": "data:image/jpeg;base64,{base64_image}",

        "detail": "detail"

      }

    }

  ]

}

Salin selepas log masuk

Pelbagai imej boleh dimasukkan. Fungsi penolong untuk pengekodan BASE64, pembinaan segera, dan panggilan API selari dilaksanakan. [Coretan kod yang ditinggalkan, seperti arahan]. Hasilnya menunjukkan kapsyen terperinci yang dihasilkan dari sifar-shot yang mendorong. [Imej ditinggalkan, seperti arahan].

beberapa-shot menggesa:

Prompting Vision Language Models

beberapa tembakan menggesa memberikan contoh tugas sebagai konteks, meningkatkan pemahaman model. [Coretan kod yang ditinggalkan, seperti arahan]. Penggunaan tiga contoh imej menunjukkan bahawa kapsyen yang dihasilkan lebih ringkas daripada yang berasal dari sifar-tembakan. [Imej ditinggalkan, seperti arahan]. Ini menyoroti kesan pemilihan contoh pada gaya output VLM dan terperinci.

Rantaian pemikiran yang mendorong:

Rantaian Pemikiran (COT) Menggalakkan [9] Memecah masalah kompleks ke dalam langkah yang lebih mudah. Ini digunakan untuk VLMS, yang membolehkan mereka menggunakan kedua -dua imej dan teks untuk penalaran. [Coretan kod yang ditinggalkan, seperti arahan]. Jejak Cot dicipta menggunakan model Openai O1 dan digunakan sebagai contoh beberapa tembakan. [Contoh jejak Cot dan imej yang ditinggalkan, seperti arahan]. Hasilnya menunjukkan keupayaan VLM untuk membuat alasan melalui langkah -langkah pertengahan sebelum menghasilkan kapsyen akhir. [Imej ditinggalkan, seperti arahan].

Pengesanan objek yang dibimbing:

Pengesanan objek boleh meningkatkan VLM yang mendorong. Model pengesanan objek vocabulary terbuka, VIT OWL [11], digunakan. Pertama, VLM mengenal pasti objek peringkat tinggi. Ini digunakan sebagai arahan untuk Vit Owl untuk menjana kotak sempadan. Imej anotasi kemudiannya diserahkan kepada VLM untuk menangkap. [Coretan kod yang ditinggalkan, seperti arahan]. Walaupun kesannya terhad untuk imej mudah, teknik ini sangat berharga untuk tugas -tugas yang kompleks seperti pemahaman dokumen. [Imej ditinggalkan, seperti arahan].

Kesimpulan:

VLMS menawarkan keupayaan yang kuat untuk tugas yang memerlukan pemahaman visual dan tekstual. Jawatan ini meneroka pelbagai strategi yang mendorong, mempamerkan impak mereka terhadap prestasi VLM. Penjelajahan lebih lanjut mengenai teknik -teknik yang mendorong kreatif memegang potensi besar. Sumber tambahan pada mendorong VLM tersedia [13].

Rujukan:

[1-13] [rujukan ditinggalkan, seperti arahan].

Atas ialah kandungan terperinci Mendorong model bahasa penglihatan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Tag artikel panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apakah Protokol Konteks Model (MCP)? Apakah Protokol Konteks Model (MCP)? Mar 03, 2025 pm 07:09 PM

Apakah Protokol Konteks Model (MCP)?

Membina ejen penglihatan tempatan menggunakan omniparser v2 dan omnitool Membina ejen penglihatan tempatan menggunakan omniparser v2 dan omnitool Mar 03, 2025 pm 07:08 PM

Membina ejen penglihatan tempatan menggunakan omniparser v2 dan omnitool

Ejen replit: panduan dengan contoh praktikal Ejen replit: panduan dengan contoh praktikal Mar 04, 2025 am 10:52 AM

Ejen replit: panduan dengan contoh praktikal

Panduan Runway Act-One: Saya memfilmkan diri untuk mengujinya Panduan Runway Act-One: Saya memfilmkan diri untuk mengujinya Mar 03, 2025 am 09:42 AM

Panduan Runway Act-One: Saya memfilmkan diri untuk mengujinya

Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Mar 20, 2025 pm 03:34 PM

Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan!

Elon Musk & Sam Altman bertembung lebih daripada $ 500 bilion projek Stargate Elon Musk & Sam Altman bertembung lebih daripada $ 500 bilion projek Stargate Mar 08, 2025 am 11:15 AM

Elon Musk & Sam Altman bertembung lebih daripada $ 500 bilion projek Stargate

DeepSeek melepaskan rangka 3FS & Smallpond DeepSeek melepaskan rangka 3FS & Smallpond Mar 03, 2025 pm 07:07 PM

DeepSeek melepaskan rangka 3FS & Smallpond

5 grok 3 arahan yang dapat memudahkan kerja anda 5 grok 3 arahan yang dapat memudahkan kerja anda Mar 04, 2025 am 10:54 AM

5 grok 3 arahan yang dapat memudahkan kerja anda

See all articles