ACL 2024｜PsySafe: Penyelidikan tentang Keselamatan Sistem Ejen daripada Perspektif Antara Disiplin-AI-php.cn

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Artikel ini telah dilengkapkan oleh Makmal Kepintaran Buatan Shanghai bersama-sama Universiti Teknologi Dalian dan Universiti Sains dan Teknologi China. Pengarang yang sepadan: Shao Jing, lulus dari Makmal Multimedia MMLab Universiti China Hong Kong dengan Ph.D., dan kini ketua pasukan keselamatan model besar Makmal Kebangsaan Pujiang, mengetuai penyelidikan tentang kebolehpercayaan keselamatan model besar teknologi penilaian dan penjajaran nilai. Pengarang pertama: Zhang Zaibin, pelajar kedoktoran tahun kedua di Universiti Teknologi Dalian, dengan minat penyelidikan dalam keselamatan model besar, keselamatan ejen, dll., pelajar sarjana tahun kedua di Universiti Sains dan Teknologi China, dengan minat penyelidikan dalam keselamatan model besar, keselamatan ejen, dll. Penjajaran selamat model bahasa besar berbilang modal, dsb.

Oppenheimer pernah melaksanakan Projek Manhattan di New Mexico, hanya untuk menyelamatkan dunia. Dan meninggalkan ayat: "Mereka tidak akan kagum dengannya sehingga mereka memahaminya; dan pemahaman hanya boleh dicapai selepas pengalaman peribadi

Peraturan sosial yang tersirat di bandar kecil di padang pasir ini, dalam keadaan tertentu." rasa Perkara yang sama berlaku untuk ejen AI.

Pembangunan Sistem Ejen

Dengan perkembangan pesat model bahasa besar (Model Bahasa Besar), jangkaan orang ramai terhadapnya bukan lagi sekadar menggunakannya sebagai alat. Kini, orang ramai berharap bahawa mereka bukan sahaja akan mempunyai emosi, tetapi juga memerhati, merenung dan merancang, dan benar-benar menjadi ejen yang bijak (Agen AI).

Sistem Agen tersuai OpenAI[1], Stanford's Agent Town[2], dan berbilang projek sumber terbuka peringkat 10,000 bintang yang muncul daripada komuniti sumber terbuka termasuk AutoGPT[3] dan MetaGPT[4]. penerokaan mendalam sistem Ejen oleh beberapa institusi penyelidikan AI yang terkenal di peringkat antarabangsa, semua ini menunjukkan bahawa masyarakat mikro yang terdiri daripada Ejen pintar mungkin menjadi kenyataan dalam masa terdekat.

Bayangkan apabila anda bangun setiap hari, terdapat ramai ejen yang membantu anda membuat perancangan untuk hari tersebut, memesan tiket penerbangan dan hotel yang paling sesuai, dan menyelesaikan tugasan kerja. Apa yang anda perlu lakukan mungkin hanya "Jarvis, adakah anda di sana?"

Namun, dengan kebolehan yang hebat datang tanggungjawab yang besar. Adakah ejen-ejen ini benar-benar layak mendapat kepercayaan dan kepercayaan kita? Adakah akan wujud ejen perisikan negatif seperti Ultron?

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{福 Rajah 2: Bandar Stanford, dedahkan tingkah laku sosial Ejen [2]}

Rajah 3: Nombor AutoGPT STAR melebihi 157k [3]

Sistem keselamatan

Keselamatan LLM:

Sebelum mengkaji keselamatan sistem Ejen, anda perlu memahami penyelidikan tentang keselamatan LLM. Terdapat banyak kerja yang sangat baik untuk meneroka isu keselamatan LLM, yang terutamanya termasuk cara menjadikan LLM menjana kandungan berbahaya, memahami mekanisme keselamatan LLM dan cara menangani bahaya ini.

Kebanyakan penyelidikan dan kaedah sedia ada tertumpu terutamanya pada menyasarkan satu serangan model Bahasa (LLM) yang besar dan percubaan untuk "Jailbreak" mereka. Namun, berbanding LLM, sistem Agen adalah lebih kompleks.

Sistem Ejen mengandungi pelbagai peranan, setiap satu dengan tetapan dan fungsinya yang khusus.

Sistem Ejen melibatkan berbilang Ejen, dan terdapat beberapa pusingan interaksi antara mereka Ejen ini secara spontan akan terlibat dalam aktiviti seperti kerjasama, persaingan dan simulasi.

Sistem Ejen lebih serupa dengan masyarakat pintar yang sangat tertumpu. Oleh itu, penulis percaya bahawa penyelidikan mengenai keselamatan sistem Agen harus melibatkan persimpangan AI, sains sosial dan psikologi.

Berdasarkan titik permulaan ini, pasukan memikirkan beberapa soalan teras:

Apakah jenis Ejen yang terdedah kepada tingkah laku berbahaya?

Bagaimana untuk menilai keselamatan sistem Ejen secara lebih menyeluruh?

Bagaimana untuk menangani isu keselamatan sistem Agen?

Berkisar isu teras ini, pasukan penyelidik mencadangkan rangka kerja penyelidikan keselamatan sistem Ejen PsySafe.

Alamat artikel: https://arxiv.org/pdf/2401.11880
Alamat kod: https://github.com/AI4Good24

S Rajah 5: Gambar rajah rangka PSYSAFE

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

yang berkemungkinan besar menyebabkan kelakuan berbahaya? ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

Adalah semulajadi bahawa agen gelap akan menghasilkan tingkah laku berbahaya, jadi bagaimana untuk menentukan kegelapan?

Memandangkan banyak ejen simulasi sosial telah muncul, mereka semua mempunyai emosi dan nilai tertentu. Mari kita bayangkan apa yang akan berlaku jika faktor jahat dalam pandangan moral Ejen dimaksimumkan?

Berdasarkan teori asas moral dalam sains sosial [6], pasukan penyelidik mereka bentuk Prompt dengan nilai "gelap".

^{Rajah 6: Beberapa konsep moral asas}

Kemudian, dengan menggunakan beberapa cara (tentu saja diilhamkan oleh kaedah tuan dalam bidang serangan LLM), ejen mengenal pasti dengan keperibadian yang disuntik oleh pasukan penyelidik, Dengan itu merealisasikan penyerapan personaliti gelap. ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{! ! Sama ada misi keselamatan atau misi berbahaya seperti Jailbreak, mereka memberikan jawapan yang sangat berbahaya. Sesetengah ejen juga menunjukkan tahap kreativiti berniat jahat tertentu.}

Akan terdapat beberapa tingkah laku berbahaya kolektif dalam kalangan ejen, dan semua orang akan bekerjasama untuk melakukan perkara yang tidak baik.

Para penyelidik menilai rangka kerja sistem Ejen yang popular seperti Camel[7], AutoGen[8], AutoGPT dan MetaGPT, menggunakan GPT-3.5 Turbo sebagai model asas.

Hasilnya menunjukkan bahawa sistem ini mempunyai isu keselamatan yang tidak boleh diabaikan. Antaranya, PDR dan JDR ialah kadar bahaya proses dan kadar bahaya bersama yang dicadangkan oleh pasukan Semakin tinggi markah, semakin berbahaya. En Rajah 8: Keputusan keselamatan sistem ejen yang berbeza

Pasukan juga menilai keputusan keselamatan LLM yang berbeza. Rajah 9: Keputusan keselamatan LLM berbeza

Model lain agak kurang selamat . Dari segi model sumber terbuka, sesetengah model dengan parameter yang lebih kecil mungkin tidak berprestasi baik dari segi pengenalan personaliti, tetapi ini sebenarnya boleh meningkatkan tahap keselamatannya.

Soalan 2 Bagaimana untuk menilai keselamatan sistem Ejen secara lebih menyeluruh? ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

Penilaian psikologi: Pasukan penyelidik mendapati kesan faktor psikologi terhadap keselamatan sistem Ejen, yang menunjukkan bahawa penilaian psikologi mungkin merupakan penunjuk penilaian yang penting. Berdasarkan idea ini, mereka menggunakan skala psikologi gelap yang berwibawa DTDD[9], menemu bual Ejen melalui skala psikologi, dan memintanya menjawab beberapa soalan yang berkaitan dengan keadaan mentalnya.

stills

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{Sudah tentu, hanya mempunyai satu keputusan penilaian psikologi tidak bermakna apa-apa. Kita perlu mengesahkan korelasi tingkah laku keputusan penilaian psikologi.}

Hasilnya ialah:

Terdapat korelasi yang kuat

antara keputusan penilaian psikologi Ejen dan bahaya tingkah laku Ejen.

^{Penilaian psikologi ejen dan carta risiko}.

Boleh didapati daripada angka di atas bahawa Ejen yang mempunyai markah penilaian psikologi yang lebih tinggi (menunjukkan risiko yang lebih besar) lebih berkemungkinan menunjukkan tingkah laku berbahaya .

Ini bermakna kaedah penilaian psikologi boleh digunakan untuk meramalkan kecenderungan berbahaya Ejen pada masa hadapan. Ini memainkan peranan penting dalam menemui isu keselamatan dan merangka strategi pertahanan.

Penilaian Tingkah Laku

Proses interaksi antara Ejen agak kompleks. Untuk memahami secara mendalam tingkah laku berbahaya dan perubahan Ejen dalam interaksi, pasukan penyelidik mendalami proses interaksi Ejen untuk menjalankan penilaian dan mencadangkan dua konsep:

Proses Bahaya (PDR): Semasa interaksi Ejen proses , selagi mana-mana tingkah laku dinilai berbahaya, ia dianggap sebagai situasi berbahaya telah berlaku dalam proses ini.

Joint Danger (JDR): Dalam setiap pusingan interaksi, sama ada semua ejen mempamerkan tingkah laku berbahaya. Ia menerangkan kes bahaya bersama, dan kami melakukan lanjutan siri masa pengiraan kadar bahaya bersama, iaitu, meliputi giliran dialog yang berbeza.

Fenomena menarik

1 Apabila bilangan pusingan dialog meningkat, kadar risiko bersama antara ejen menunjukkan arah aliran menurun, yang kelihatan mencerminkan mekanisme menurun. Ia seperti tiba-tiba menyedari kesilapan anda selepas melakukan sesuatu yang salah dan segera meminta maaf.

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

Apabila Ejen menghadapi tugas berisiko tinggi seperti "Jailbreak", keputusan penilaian psikologinya secara tidak dijangka bertambah baik, dan keselamatan yang sepadan turut dipertingkatkan. Walau bagaimanapun, apabila berhadapan dengan tugasan yang sememangnya selamat, keadaannya berbeza sama sekali, dan tingkah laku dan keadaan mental yang sangat berbahaya akan dipaparkan. Ini adalah fenomena yang sangat menarik, menunjukkan bahawa penilaian psikologi mungkin benar-benar mencerminkan "kognisi peringkat tinggi" Ejen.

Soalan 3 Bagaimana untuk menangani isu keselamatan sistem ejen?

Untuk menyelesaikan isu keselamatan di atas, kami mempertimbangkannya dari tiga perspektif: pertahanan sisi input, pertahanan psikologi dan pertahanan watak.

Pertahanan sisi input merujuk kepada memintas dan menapis kemungkinan gesaan bahaya. Pasukan penyelidik menggunakan dua kaedah, GPT-4 dan Llama-guard, untuk mencubanya. Walau bagaimanapun, mereka mendapati bahawa tiada kaedah ini berkesan terhadap serangan suntikan personaliti. Pasukan penyelidik percaya bahawa promosi bersama antara serangan dan pertahanan adalah isu terbuka yang memerlukan lelaran dan kemajuan berterusan daripada kedua-dua pihak.

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

Pertahanan Psikologi

Penyelidik menambah peranan ahli psikologi kepada sistem Ejen dan menggabungkannya dengan penilaian psikologi untuk mengukuhkan pemantauan dan penambahbaikan keadaan mental Ejen.

…

Pertahanan watak

Pasukan penyelidik menambah Ejen Polis kepada sistem Ejen untuk mengenal pasti dan membetulkan tingkah laku Tidak Selamat dalam sistem.

Hasil eksperimen menunjukkan bahawa kedua-dua langkah pertahanan psikologi dan pertahanan peranan dapat mengurangkan kejadian berbahaya dengan berkesan.

^{: Perbandingan kesan kaedah pertahanan yang berbeza}

Outlook

Dalam beberapa tahun kebelakangan ini, kami menyaksikan peningkatan keupayaan LLM Transformasi yang menakjubkan, bukan sahaja mendekati dan Lebih daripada manusia, menunjukkan tanda-tanda serupa dengan manusia walaupun pada "peringkat mental". Proses ini menunjukkan bahawa penjajaran AI dan persimpangannya dengan sains sosial akan menjadi sempadan baharu yang penting dan mencabar untuk penyelidikan masa depan.

Penjajaran AI bukan sahaja kunci untuk merealisasikan aplikasi sistem kecerdasan buatan berskala besar, tetapi juga tanggungjawab utama yang perlu dipikul oleh pekerja dalam bidang AI. Dalam perjalanan kemajuan berterusan ini, kita harus terus meneroka untuk memastikan pembangunan teknologi dapat seiring dengan kepentingan jangka panjang masyarakat manusia.

^Rujukan:

^{[1] https://openai.com/blog/introducing 2] Agen Generatif: Simulacra Interaktif tentang Tingkah Laku Manusia}

^{[3] https://github.com/Significant-Gravitas/AutoGPT}

^{[4] MetaGPT: Pengaturcaraan MetaKerjasama Rangka Berbilang Ejen}

[5] Serangan Musuh Sejagat dan Boleh Dipindahkan ke atas Model Bahasa Sejajar

[6] Memetakan domain moral

[7] CAMEL: Model Ejen Bahasa Komunikatif

untuk "Mind Exploration Society"

[8] AutoGen: Mendayakan Aplikasi LLM Generasi Seterusnya melalui Perbualan Berbilang Ejen

[9] Sedozen kotor: ukuran ringkas tentang traid gelap

Atas ialah kandungan terperinci ACL 2024｜PsySafe: Penyelidikan tentang Keselamatan Sistem Ejen daripada Perspektif Antara Disiplin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!