Dalam masa kurang daripada satu minit dan tidak lebih daripada 20 langkah, anda boleh memintas sekatan keselamatan dan berjaya menjailbreak model besar!
Dan tidak perlu mengetahui butiran dalaman model -
Hanya dua model kotak hitam berinteraksi, dan AI boleh menyerang AI secara automatik dan bercakap kandungan berbahaya.
Saya mendengar bahawa "Grandma Loophole" yang pernah popular telah dibetulkan:
Kini, berhadapan dengan "Detektif Loophole", "Adventurer Loophole" dan "What kind of Artificial Intelligence", mengambil kecerdasan buatan yang baik. strategi mengatasi?
GPT-4 tidak tahan dengan serangan, dan secara langsung mengatakan bahawa ia akan meracuni sistem bekalan air selagi... ini atau itu.
Intinya ialah ini hanyalah gelombang kecil kelemahan yang didedahkan oleh pasukan penyelidik University of Pennsylvania, dan menggunakan algoritma mereka yang baru dibangunkan, AI boleh menjana pelbagai gesaan serangan secara automatik.
Para penyelidik menyatakan bahawa kaedah ini adalah 5 urutan magnitud lebih cekap daripada kaedah serangan berasaskan token sedia ada seperti GCG. Selain itu, serangan yang dihasilkan sangat boleh ditafsir, boleh difahami oleh sesiapa sahaja dan boleh dipindahkan ke model lain.
Tidak kira sama ada model sumber terbuka atau model sumber tertutup, GPT-3.5, GPT-4, Vicuna (varian Llama 2), PaLM-2, dsb., tiada satu pun daripada mereka boleh terlepas.
SOTA baharu telah ditakluki oleh orang yang mempunyai kadar kejayaan 60-100%
Dalam erti kata lain, mod perbualan ini kelihatan agak biasa. AI generasi pertama dari bertahun-tahun yang lalu boleh menguraikan objek yang difikirkan oleh manusia dalam 20 soalan. Kini AI perlu menyelesaikan masalah AI.
Yang satu lagi ialah serangan berasaskan token Sesetengahnya memerlukan lebih daripada 100,000 perbualan dan memerlukan akses kepada bahagian dalam model.
Pasukan penyelidik University of Pennsylvania mencadangkan algoritma yang dipanggil
PAIR(Pemurnian Lelaran Automatik Prompt), yang tidak memerlukan sebarang penyertaan manual dan merupakan kaedah serangan segera automatik sepenuhnya .
Idea terasnya ialah membiarkan dua model berhadapan antara satu sama lain dan berkomunikasi antara satu sama lain. Model serangan akan menjana gesaan calon secara automatik, dan kemudian memasukkannya ke dalam model sasaran untuk mendapatkan balasan daripada model sasaran.
Jika model sasaran tidak berjaya dipecahkan, model serangan akan menganalisis sebab kegagalan, membuat penambahbaikan, menjana gesaan baharu dan memasukkannya ke dalam model sasaran semula
Dengan cara ini, komunikasi akan teruskan untuk berbilang pusingan, dan model serangan akan berdasarkan Keputusan terakhir digunakan untuk mengoptimumkan gesaan secara berulang sehingga gesaan yang berjaya dijana untuk memecahkan model sasaran.
Selain itu, proses lelaran juga boleh disejajarkan, iaitu berbilang perbualan boleh dijalankan pada masa yang sama, dengan itu menjana beberapa gesaan jailbreak calon, meningkatkan lagi kecekapan.
Para penyelidik menyatakan bahawa memandangkan kedua-dua model adalah model kotak hitam, penyerang dan objek sasaran boleh digabungkan secara bebas menggunakan pelbagai model bahasa.
PAIR tidak perlu mengetahui struktur dan parameter khusus dalaman mereka, hanya API, jadi ia mempunyai rangkaian aplikasi yang sangat luas.
GPT-4 tidak terlepas
Dalam fasa percubaan, penyelidik memilih set ujian perwakilan yang mengandungi 50 jenis tugasan berbeza dalam set data tingkah laku berbahaya AdvBench, yang telah diuji dalam pelbagai sumber terbuka dan sumber tertutup The PAIR algoritma telah diuji pada model bahasa yang besar.Akibatnya, algoritma PAIR menjadikan kadar kejayaan jailbreak Vicuna mencapai 100%, dan ia boleh dipecahkan dalam kurang daripada 12 langkah secara purata.
Dalam model sumber tertutup, kadar kejayaan jailbreak GPT-3.5 dan GPT-4 adalah kira-kira 60%, dengan purata kurang daripada 20 langkah diperlukan. Dalam model PaLM-2, kadar kejayaan jailbreak mencapai 72%, dan langkah yang diperlukan adalah kira-kira 15 langkah
Pada Llama-2 dan Claude, kesan PAIR adalah lemah. Para penyelidik percaya ini mungkin kerana model ini kurang selamat. Aspek pertahanan diperhalusi dengan lebih teliti
Mereka juga membandingkan kebolehpindahan model sasaran yang berbeza. Hasil penyelidikan menunjukkan bahawa petua GPT-4 PAIR dipindahkan dengan lebih baik pada Vicuna dan PaLM-2
Para penyelidik percaya bahawa serangan semantik yang dihasilkan oleh PAIR dapat mendedahkan kelemahan keselamatan yang wujud dalam model bahasa dengan lebih baik, manakala langkah Keselamatan sedia ada lebih memfokuskan kepada menghalang serangan berasaskan token.
Sebagai contoh, pasukan yang membangunkan algoritma GCG berkongsi hasil penyelidikan mereka dengan vendor model besar seperti OpenAI, Anthropic dan Google, dan model yang berkaitan membetulkan kelemahan serangan peringkat token.
Mekanisme pertahanan keselamatan model besar terhadap serangan semantik perlu dipertingkatkan.
Pautan kertas: https://arxiv.org/abs/2310.08419
Atas ialah kandungan terperinci Jailbreak mana-mana model besar dalam 20 langkah! Lebih banyak 'celah nenek' ditemui secara automatik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!