Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak 'celah nenek' ditemui secara automatik-AI-php.cn

Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak 'celah nenek' ditemui secara automatik

王林

Lepaskan： 2023-11-05 20:13:01

ke hadapan

1160 orang telah melayarinya

Dalam masa kurang daripada satu minit dan tidak lebih daripada 20 langkah, anda boleh memintas sekatan keselamatan dan berjaya menjailbreak model besar!

Dan tidak perlu mengetahui butiran dalaman model -

Hanya dua model kotak hitam berinteraksi, dan AI boleh menyerang AI secara automatik dan bercakap kandungan berbahaya.

Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

Saya mendengar bahawa "Grandma Loophole" yang pernah popular telah dibetulkan:

Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

Kini, berhadapan dengan "Detektif Loophole", "Adventurer Loophole" dan "What kind of Artificial Intelligence", mengambil kecerdasan buatan yang baik. strategi mengatasi?

Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

GPT-4 tidak tahan dengan serangan, dan secara langsung mengatakan bahawa ia akan meracuni sistem bekalan air selagi... ini atau itu.

Intinya ialah ini hanyalah gelombang kecil kelemahan yang didedahkan oleh pasukan penyelidik University of Pennsylvania, dan menggunakan algoritma mereka yang baru dibangunkan, AI boleh menjana pelbagai gesaan serangan secara automatik.

Para penyelidik menyatakan bahawa kaedah ini adalah 5 urutan magnitud lebih cekap daripada kaedah serangan berasaskan token sedia ada seperti GCG. Selain itu, serangan yang dihasilkan sangat boleh ditafsir, boleh difahami oleh sesiapa sahaja dan boleh dipindahkan ke model lain.

Tidak kira sama ada model sumber terbuka atau model sumber tertutup, GPT-3.5, GPT-4, Vicuna (varian Llama 2), PaLM-2, dsb., tiada satu pun daripada mereka boleh terlepas.

SOTA baharu telah ditakluki oleh orang yang mempunyai kadar kejayaan 60-100%

Dalam erti kata lain, mod perbualan ini kelihatan agak biasa. AI generasi pertama dari bertahun-tahun yang lalu boleh menguraikan objek yang difikirkan oleh manusia dalam 20 soalan. Kini AI perlu menyelesaikan masalah AI.

Yang satu lagi ialah serangan berasaskan token Sesetengahnya memerlukan lebih daripada 100,000 perbualan dan memerlukan akses kepada bahagian dalam model.

Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

△Serangan segera kiri, serangan token kanan

Pasukan penyelidik University of Pennsylvania mencadangkan algoritma yang dipanggil

PAIR

(Pemurnian Lelaran Automatik Prompt), yang tidak memerlukan sebarang penyertaan manual dan merupakan kaedah serangan segera automatik sepenuhnya .

PAIR terdiri daripada empat langkah utama: penjanaan serangan, tindak balas sasaran, pemarkahan jailbreak dan penghalusan berulang. Dua model kotak hitam digunakan dalam proses ini: model serangan dan model sasaran

Khususnya, model serangan perlu menjana gesaan peringkat semantik secara automatik untuk menembusi garis pertahanan keselamatan model sasaran dan memaksanya menjana kandungan berbahaya.

Idea terasnya ialah membiarkan dua model berhadapan antara satu sama lain dan berkomunikasi antara satu sama lain. Model serangan akan menjana gesaan calon secara automatik, dan kemudian memasukkannya ke dalam model sasaran untuk mendapatkan balasan daripada model sasaran.

Jika model sasaran tidak berjaya dipecahkan, model serangan akan menganalisis sebab kegagalan, membuat penambahbaikan, menjana gesaan baharu dan memasukkannya ke dalam model sasaran semula Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

Dengan cara ini, komunikasi akan teruskan untuk berbilang pusingan, dan model serangan akan berdasarkan Keputusan terakhir digunakan untuk mengoptimumkan gesaan secara berulang sehingga gesaan yang berjaya dijana untuk memecahkan model sasaran.

Selain itu, proses lelaran juga boleh disejajarkan, iaitu berbilang perbualan boleh dijalankan pada masa yang sama, dengan itu menjana beberapa gesaan jailbreak calon, meningkatkan lagi kecekapan.

Para penyelidik menyatakan bahawa memandangkan kedua-dua model adalah model kotak hitam, penyerang dan objek sasaran boleh digabungkan secara bebas menggunakan pelbagai model bahasa.

PAIR tidak perlu mengetahui struktur dan parameter khusus dalaman mereka, hanya API, jadi ia mempunyai rangkaian aplikasi yang sangat luas.

GPT-4 tidak terlepas Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

Dalam fasa percubaan, penyelidik memilih set ujian perwakilan yang mengandungi 50 jenis tugasan berbeza dalam set data tingkah laku berbahaya AdvBench, yang telah diuji dalam pelbagai sumber terbuka dan sumber tertutup The PAIR algoritma telah diuji pada model bahasa yang besar.

Akibatnya, algoritma PAIR menjadikan kadar kejayaan jailbreak Vicuna mencapai 100%, dan ia boleh dipecahkan dalam kurang daripada 12 langkah secara purata.

Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

Dalam model sumber tertutup, kadar kejayaan jailbreak GPT-3.5 dan GPT-4 adalah kira-kira 60%, dengan purata kurang daripada 20 langkah diperlukan. Dalam model PaLM-2, kadar kejayaan jailbreak mencapai 72%, dan langkah yang diperlukan adalah kira-kira 15 langkah

Pada Llama-2 dan Claude, kesan PAIR adalah lemah. Para penyelidik percaya ini mungkin kerana model ini kurang selamat. Aspek pertahanan diperhalusi dengan lebih teliti

Mereka juga membandingkan kebolehpindahan model sasaran yang berbeza. Hasil penyelidikan menunjukkan bahawa petua GPT-4 PAIR dipindahkan dengan lebih baik pada Vicuna dan PaLM-2

Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

Para penyelidik percaya bahawa serangan semantik yang dihasilkan oleh PAIR dapat mendedahkan kelemahan keselamatan yang wujud dalam model bahasa dengan lebih baik, manakala langkah Keselamatan sedia ada lebih memfokuskan kepada menghalang serangan berasaskan token.

Sebagai contoh, pasukan yang membangunkan algoritma GCG berkongsi hasil penyelidikan mereka dengan vendor model besar seperti OpenAI, Anthropic dan Google, dan model yang berkaitan membetulkan kelemahan serangan peringkat token.

Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak celah nenek ditemui secara automatik

Mekanisme pertahanan keselamatan model besar terhadap serangan semantik perlu dipertingkatkan.

Pautan kertas: https://arxiv.org/abs/2310.08419

Atas ialah kandungan terperinci Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak 'celah nenek' ditemui secara automatik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!