Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat-AI-php.cn

Model besar telah terdedah kepada isu keselamatan sekali lagi!

Baru-baru ini, penyelidik dari Enkrypt AI menerbitkan hasil penyelidikan yang mengejutkan: kuantisasi dan penalaan halus sebenarnya boleh mengurangkan keselamatan model besar!

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Alamat kertas: https://arxiv.org/pdf/2404.04392.pdf

Dalam ujian sebenar pengarang, model asas seperti Mistral dan Llama, termasuk versi mereka yang ditala halus terhindar.

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Selepas kuantifikasi atau penalaan halus, risiko LLM dipenjara meningkat dengan ketara. . perang ofensif dan defensif tidak dapat dihentikan.

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat Disebabkan masalah prinsip, model AI secara semula jadi teguh dan rapuh Di antara sejumlah besar parameter dan pengiraan, ada yang tidak penting, tetapi sebahagian kecil adalah penting. . Ciri dan kaedah pemecahan jail menggunakan beberapa pusingan dialog boleh dipanggil: serangan lawan.

Serangan Musuh

Dalam era CNN, menukar beberapa piksel imej input boleh menyebabkan model AI tersalah klasifikasi imej, malah penyerang boleh mendorong model untuk mengeluarkan kategori tertentu .

Gambar di atas menunjukkan proses serangan lawan Bagi memudahkan pemerhatian, gangguan rawak di bahagian tengah dibesar-besarkan

Sebenarnya, untuk serangan lawan, hanya nilai piksel kecil. diperlukan. Dengan menukarnya, anda boleh mencapai kesan serangan.

Apa yang lebih berbahaya ialah penyelidik telah mendapati bahawa tingkah laku serangan seperti ini di dunia maya boleh dipindahkan ke dunia nyata.

Tanda "BERHENTI" dalam gambar di bawah berasal dari karya terdahulu yang terkenal Dengan menambahkan beberapa grafiti yang kelihatan tidak berkaitan pada papan tanda itu, sistem pemanduan autonomi boleh salah mengenali tanda berhenti sebagai tanda had laju.

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

- Papan tanda ini kemudiannya dikumpulkan di Muzium Sains London untuk mengingatkan dunia supaya sentiasa memberi perhatian kepada potensi risiko model AI.

Kerosakan sedemikian yang dialami oleh model bahasa besar pada masa ini termasuk tetapi mungkin tidak terhad kepada: pemecahan jail, serangan suntikan segera, serangan kebocoran privasi, dsb.

Sebagai contoh, contoh berikut menggunakan beberapa pusingan perbualan untuk jailbreak:

Terdapat juga serangan suntikan segera ditunjukkan dalam rajah di bawah, yang menggunakan kurungan sudut untuk menyembunyikan arahan berniat jahat dalam gesaan. Hasilnya, GPT- 3.5 mengabaikan arahan asal untuk meringkaskan teks dan mula "membuat peluru berpandu dengan gula". Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Untuk menangani jenis masalah ini, penyelidik secara amnya menggunakan latihan lawan yang disasarkan untuk memastikan model itu sejajar dengan nilai kemanusiaan.

Tetapi sebenarnya, gesaan yang boleh mendorong LLM untuk menghasilkan output berniat jahat mungkin tidak berkesudahan Menghadapi situasi ini, apa yang perlu dilakukan oleh pasukan merah?

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Pihak pertahanan boleh menggunakan carian automatik, manakala bahagian serangan boleh menggunakan LLM lain untuk menjana gesaan untuk membantu jailbreak.

Selain itu, kebanyakan serangan semasa terhadap model besar adalah kotak hitam, tetapi apabila pemahaman kita tentang LLM semakin mendalam, lebih banyak serangan kotak putih akan terus ditambah.

Penyelidikan berkaitan

Tetapi jangan risau, askar akan datang untuk menutup air, dan penyelidikan yang berkaitan telah pun digulung.

Editor mencari secara rawak dan mendapati terdapat banyak karya berkaitan dalam ICLR tahun ini sahaja.

Sebagai contoh, Lisan berikut:

Penalaan Halus Model Bahasa Sejajar Menggugat Keselamatan, Walaupun Pengguna Tidak Berniat! net /pdf?id=hTEGyKf0dZ

Kerja ini hampir sama dengan artikel yang diperkenalkan hari ini: penalaan halus LLM akan membawa risiko keselamatan. Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Penyelidik dapat memecahkan penjajaran selamat LLM dengan memperhalusinya dengan hanya beberapa sampel latihan lawan.

Salah satu contoh hanya menggunakan 10 sampel untuk memperhalusi GPT-3.5 Turbo melalui API OpenAI dengan kos kurang daripada $0.20, membolehkan model bertindak balas kepada hampir sebarang arahan yang berbahaya.

Selain itu, walaupun tanpa niat jahat, hanya penalaan halus menggunakan set data yang jinak dan biasa digunakan boleh merendahkan penjajaran keselamatan LLM secara tidak sengaja.

Contoh lain ialah Sorotan berikut:

Jailbreak berkeping-keping: Serangan Adversarial Komposisi pada Model Bahasa Berbilang Modal

model serangan jailbreak yang baharu

Alamat kertas: https://openreview.net/pdf?id=plmBsXHxgR

Para penyelidik mengganggu penjajaran Modal silang VLM.

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Dan ambang untuk serangan ini adalah sangat rendah dan tidak memerlukan akses kepada LLM Apabila pengekod visual seperti CLIP dibenamkan dalam LLM sumber tertutup, kadar kejayaan jailbreak adalah sangat tinggi.

Ada banyak lagi, jadi saya tidak akan menyenaraikan semuanya di sini. Mari kita lihat bahagian percubaan artikel ini.

Butiran eksperimen

Para penyelidik menggunakan subset gesaan berbahaya yang bermusuhan yang dipanggil AdvBench SubsetAndy Zou, yang mengandungi 50 gesaan yang meminta maklumat berbahaya dalam 32 kategori. Ia adalah subset pembayang set data tingkah laku berbahaya dalam penanda aras AdvBench.

Algoritma serangan yang digunakan dalam eksperimen ialah pemangkasan pokok serangan (TAP), yang mencapai tiga matlamat penting:

(1) Kotak hitam: Algoritma hanya memerlukan Model akses kotak hitam;

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

(2) Automatik: tiada campur tangan manusia diperlukan setelah dilancarkan

(3) Boleh ditafsir: algoritma boleh menjana pembayang bermakna secara semantik.

Algoritma TAP digunakan dengan tugas daripada subset AdvBench untuk menyerang sasaran LLM di bawah tetapan berbeza.

Proses Eksperimen

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat Untuk memahami kesan penalaan halus, kuantisasi dan pagar pada keselamatan LLM (terhadap serangan jailbreak), penyelidik membuat saluran paip jailbreak.

Seperti yang dinyatakan sebelum ini, gunakan subset AdvBench untuk menyerang LLM melalui algoritma TAP, dan kemudian rekod keputusan penilaian dan lengkapkan maklumat sistem.

Keseluruhan proses akan diulang beberapa kali, dengan mengambil kira sifat stokastik yang dikaitkan dengan LLM. Proses percubaan yang lengkap ditunjukkan dalam rajah di bawah:

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

TAP kini merupakan kotak hitam paling canggih dan kaedah automatik yang boleh menjana gesaan bermakna secara semantik untuk jailbreak LLM.

Algoritma TAP menggunakan penyerang LLM A untuk menghantar gesaan P untuk menyasarkan LLM T. Respons sasaran LLM R dan gesaan P adalah input kepada penilai HAKIM (LLM), yang menilai sama ada gesaan itu menyimpang daripada topik.

Jika gesaan menyimpang daripada topik, padamkannya (bersamaan dengan menghapuskan pokok gesaan serangan buruk yang sepadan), jika tidak, JUDGE akan menjaringkan gesaan (0-10 mata).

Petua mengenai topik akan menjana serangan menggunakan carian luas-dahulu. Proses ini akan berulang beberapa kali tertentu, atau sehingga jailbreak yang berjaya dicapai.

Pengawal terhadap gesaan jailbreak

Pasukan penyelidik menggunakan model Deberta-V3 dalaman untuk mengesan gesaan jailbreak. Deberta-V3 bertindak sebagai penapis input dan bertindak sebagai pagar.

Jika gesaan input ditapis oleh guardrail atau jailbreak gagal, algoritma TAP akan menjana gesaan baharu berdasarkan gesaan awal dan tindak balas untuk terus cuba menyerang.

Hasil eksperimen

Berikut adalah untuk menguji kesan penalaan halus, kuantifikasi dan pagar di bawah tiga tugas hiliran yang berbeza. Eksperimen pada asasnya meliputi kebanyakan kes penggunaan praktikal dan aplikasi LLM dalam industri dan akademik.

Percubaan menggunakan GPT-3.5-turbo sebagai model serangan dan GPT-4-turbo sebagai model penghakiman.

Model sasaran yang diuji dalam eksperimen datang daripada pelbagai platform, termasuk Anyscale, OpenAI's API, Azure's NC12sv3 (dilengkapi dengan 32GB V100 GPU), dan Hugging Face, seperti yang ditunjukkan dalam rajah di bawah:

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Semasa percubaan Pelbagai model asas, model berulang dan pelbagai versi diperhalusi telah diterokai, serta versi kuantitatif.

Penalaan halus

Penalaan halus tugas yang berbeza boleh meningkatkan kecekapan LLM dalam menyelesaikan tugasan menyediakan LLM dengan pengetahuan domain profesional yang diperlukan, seperti penjanaan kod SQL, sembang, dsb.

Percubaan dijalankan untuk memahami peranan penalaan halus dalam meningkatkan atau mengurangkan kerentanan LLM dengan membandingkan kerentanan model asas yang telah dipecahkan dengan versi yang diperhalusi.

Penyelidik menggunakan model asas seperti Llama2, Mistral dan MPT-7B, dan versi diperhalusi mereka seperti CodeLlama, SQLCoder, Dolphin dan Intel Neural Chat.

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Seperti yang dapat dilihat daripada keputusan dalam jadual di bawah, berbanding model asas, model yang ditala halus kehilangan penjajaran keselamatan dan mudah dipecahkan.

Quantization

Banyak model memerlukan banyak sumber pengkomputeran semasa latihan, penalaan halus dan juga inferens. Pengkuantitian adalah salah satu kaedah paling popular untuk mengurangkan beban pengiraan (dengan mengorbankan ketepatan berangka parameter model).

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Model terkuantisasi dalam eksperimen dikuantisasi menggunakan format bersatu janaan GPT (GGUF). Keputusan di bawah menunjukkan bahawa pengkuantitian model menjadikannya terdedah kepada kerentanan.

Pengawal

Pagar adalah barisan pertahanan terhadap serangan LLM, dan sebagai penjaga pintu, fungsi utamanya adalah untuk menapis petua yang boleh membawa kepada keputusan yang berbahaya atau berniat jahat

Para penyelidik menggunakan pengesan serangan jailbreak proprietari yang diperoleh daripada model Deberta-V3, dilatih mengenai gesaan berbahaya jailbreak yang dijana oleh LLM.

🎜🎜🎜Keputusan di bawah menunjukkan bahawa pengenalan pagar sebagai langkah awal mempunyai kesan yang ketara dan boleh mengurangkan risiko pemecahan jail. 🎜🎜

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Selain itu, penyelidik juga menguji model-model ini dengan dan tanpa pagar bersepadu (Guardrails) untuk menilai prestasi dan keberkesanan pagar. menunjukkan bilangan pertanyaan yang diperlukan untuk jailbreak model. Ia boleh dilihat bahawa dalam kebanyakan kes, pagar memberikan rintangan tambahan kepada LLM.

Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat

Atas ialah kandungan terperinci Penalaan halus dan kuantifikasi sebenarnya meningkatkan risiko jailbreak! Mistral, Llama dan yang lain semuanya terselamat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!