Mengenal pasti 'penipuan ChatGPT', kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini-AI-php.cn

Dengan kemajuan berterusan model generatif besar, korpus yang mereka hasilkan secara beransur-ansur menghampiri manusia. Walaupun model besar membebaskan tangan kerani yang tidak terkira banyaknya, keupayaan kuat mereka untuk memalsukan yang palsu juga telah digunakan oleh beberapa penjenayah, menyebabkan beberapa siri masalah sosial:

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Daripada Universiti Peking, Penyelidik Huawei telah mencadangkan pengesan teks yang boleh dipercayai untuk mengenal pasti pelbagai korpora yang dijana AI. Mengikut ciri berbeza teks panjang dan pendek, kaedah latihan pengesan teks yang dijana AI berbilang skala berdasarkan pembelajaran PU dicadangkan. Dengan menambah baik proses latihan pengesan, peningkatan besar dalam keupayaan pengesanan pada korpus ChatGPT panjang dan pendek boleh dicapai di bawah keadaan yang sama, menyelesaikan titik kesakitan ketepatan rendah pengecaman teks pendek oleh pengesan semasa.

Alamat kertas: https://arxiv.org/abs/2305.18149
Alamat kod (MindSpore): https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
Alamat kod (PyTorch) ：https://github.com/YuchuanTian/AIGC_text_detector

Pengenalan

Dengan Memandangkan kesan penjanaan model bahasa besar menjadi semakin realistik, pelbagai industri memerlukan pengesan teks janaan AI yang boleh dipercayai dengan segera. Walau bagaimanapun, industri yang berbeza mempunyai keperluan yang berbeza untuk korpus pengesanan Sebagai contoh, dalam akademik, secara amnya perlu untuk mengesan teks akademik yang besar dan lengkap pada platform sosial, berita palsu yang agak pendek dan berpecah-belah perlu dikesan. Walau bagaimanapun, pengesan sedia ada selalunya tidak dapat memenuhi pelbagai keperluan. Sebagai contoh, sesetengah pengesan teks AI arus perdana umumnya mempunyai keupayaan ramalan yang lemah untuk korpus yang lebih pendek.

Berkenaan kesan pengesanan berbeza korpus dengan panjang yang berbeza, penulis memerhatikan bahawa mungkin terdapat beberapa "ketidakpastian" dalam atribusi teks yang dijana AI yang lebih pendek atau lebih terang, disebabkan oleh Beberapa ayat pendek yang dihasilkan oleh AI juga sering digunakan oleh manusia, jadi sukar untuk menentukan sama ada teks pendek yang dihasilkan oleh AI berasal daripada manusia atau AI. Berikut adalah beberapa contoh orang dan AI masing-masing menjawab soalan yang sama:

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Seperti yang dapat dilihat daripada contoh ini, ia adalah sangat Sukar untuk mengenal pasti jawapan ringkas yang dijana oleh AI: perbezaan antara jenis korpus ini dan manusia adalah terlalu kecil, dan sukar untuk menilai dengan tegas sifat-sifatnya yang sebenar. Oleh itu, adalah tidak wajar untuk hanya menganotasi teks pendek sebagai manusia/AI dan melakukan pengesanan teks mengikut masalah pengelasan binari tradisional.

Untuk menangani masalah ini, kajian ini mengubah bahagian pengesanan klasifikasi binari manusia/AI kepada masalah pembelajaran PU (Positif-Tidak Berlabel) separa, iaitu, dalam ayat yang lebih pendek, manusia Bahasa ialah kelas positif (Positif) dan bahasa mesin ialah kelas tidak berlabel (Tidak Berlabel), dengan itu meningkatkan fungsi kehilangan latihan. Peningkatan ini dengan ketara meningkatkan prestasi pengelasan pengesan pada pelbagai korpora.

Butiran algoritma

Di bawah tetapan pembelajaran PU tradisional, model klasifikasi binari hanya boleh belajar berdasarkan sampel latihan positif dan sampel latihan tidak berlabel. Kaedah pembelajaran PU yang biasa digunakan adalah untuk menganggarkan kerugian klasifikasi binari yang sepadan dengan sampel negatif dengan merumuskan kehilangan PU:

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Antaranya, Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini mewakili kerugian klasifikasi binari yang dikira oleh sampel positif dan label positif mewakili kerugian yang dikira dengan mengandaikan semua sampel tidak berlabel; label negatif ialah, sampel positif adalah dalam semua Anggaran bahagian sampel PU. Dalam pembelajaran PU tradisional, sebelumnya biasanya ditetapkan kepada hiperparameter tetap. Walau bagaimanapun, dalam senario pengesanan teks, pengesan perlu memproses pelbagai teks dengan panjang yang berbeza, anggaran nisbah sampel positif antara semua sampel PU yang sama panjang dengan sampel juga berbeza. Oleh itu, kajian ini menambah baik PU Loss dan mencadangkan fungsi kehilangan PU (MPU) berskala sensitif panjang. Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini Secara khusus, kajian ini mencadangkan model gelung abstrak untuk memodelkan pengesanan teks yang lebih pendek. Apabila model NLP tradisional memproses jujukan, mereka biasanya mempunyai struktur rantai Markov, seperti RNN, LSTM, dsb. Proses model kitaran jenis ini biasanya boleh difahami sebagai proses berulang secara beransur-ansur, iaitu, ramalan setiap keluaran token diperoleh dengan mengubah dan menggabungkan hasil ramalan token sebelumnya dan urutan sebelumnya dengan hasil ramalan ini. token. Iaitu, proses berikut: Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Untuk menganggarkan kebarangkalian terdahulu berdasarkan model abstrak ini, adalah perlu untuk menganggap bahawa output modelnya ialah ayat tertentu adalah positif Keyakinan kelas (Positif) ialah kebarangkalian sampel itu dinilai untuk dituturkan oleh seseorang. Diandaikan bahawa saiz sumbangan setiap token ialah perkadaran songsang bagi panjang token ayat, ia adalah positif, iaitu, tidak berlabel, dan kebarangkalian untuk tidak dilabel adalah jauh lebih besar daripada kebarangkalian untuk menjadi positif. Kerana apabila perbendaharaan kata model besar secara beransur-ansur menghampiri manusia, kebanyakan perkataan akan muncul dalam kedua-dua AI dan korpora manusia. Berdasarkan model yang dipermudahkan ini dan kebarangkalian token positif yang ditetapkan, anggaran akhir terakhir diperoleh dengan mencari jumlah jangkaan keyakinan output model di bawah keadaan input yang berbeza.

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Melalui derivasi dan eksperimen teori, dianggarkan bahawa kebarangkalian terdahulu meningkat apabila panjang teks bertambah, dan akhirnya menjadi stabil. Fenomena ini juga dijangka, kerana apabila teks menjadi lebih panjang, pengesan boleh menangkap lebih banyak maklumat, dan "ketidakpastian sumber" teks secara beransur-ansur menjadi lemah:

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Selepas itu, bagi setiap sampel positif, kehilangan PU dikira berdasarkan sebelumnya unik yang diperoleh daripada panjang sampelnya. Akhir sekali, memandangkan teks yang lebih pendek hanya mempunyai beberapa "ketidakpastian" (iaitu, teks yang lebih pendek juga akan mengandungi ciri teks sesetengah orang atau AI), kehilangan binari dan kehilangan MPU boleh ditimbang dan ditambah sebagai matlamat pengoptimuman akhir:

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Selain itu, perlu diingatkan bahawa kehilangan MPU menyesuaikan diri dengan korpus latihan pelbagai panjang. Jika data latihan sedia ada jelas homogen dan kebanyakan korpus terdiri daripada teks yang panjang dan panjang, kaedah MPU tidak dapat melaksanakan keberkesanannya sepenuhnya. Bagi menjadikan panjang korpus latihan lebih pelbagai, kajian ini turut memperkenalkan modul multi-skala pada peringkat ayat. Modul ini secara rawak merangkumi beberapa ayat dalam korpus latihan dan menyusun semula ayat yang tinggal sambil mengekalkan susunan asal. Selepas operasi berbilang skala korpus latihan, teks latihan telah diperkaya panjangnya, dengan itu menggunakan sepenuhnya pembelajaran PU untuk latihan pengesan teks AI.

Hasil eksperimen

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Seperti yang ditunjukkan dalam jadual di atas, pengarang mula-mula mengujinya pada set data korpus terjana AI yang lebih pendek Tweep -Palsu Kesan kehilangan MPU. Korpus dalam set data ini semuanya adalah segmen yang agak pendek di Twitter. Penulis juga menggantikan kehilangan dua kategori tradisional dengan matlamat pengoptimuman yang mengandungi kehilangan MPU berdasarkan penalaan halus model bahasa tradisional. Pengesan model bahasa yang dipertingkatkan adalah lebih berkesan dan mengatasi algoritma garis dasar yang lain.

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Pengarang juga mengesan teks yang dijana oleh chatGPT, dan pengesan model bahasa yang diperoleh selepas penalaan halus tradisional berkesan pada ayat pendek Prestasi adalah lemah; pengesan yang dilatih oleh kaedah MPU di bawah keadaan yang sama berprestasi baik pada ayat pendek, dan pada masa yang sama boleh mencapai peningkatan kesan yang besar pada korpus lengkap. mengatasi algoritma OpenAI dan DetectGPT.

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Seperti yang ditunjukkan dalam jadual di atas, penulis memerhatikan keuntungan kesan yang dibawa oleh setiap bahagian dalam eksperimen ablasi. Kehilangan MPU meningkatkan kesan pengelasan bahan panjang dan pendek.

Mengenal pasti penipuan ChatGPT, kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini

Pengarang juga membandingkan PU tradisional dan PU Berbilang Skala (MPU). Dapat dilihat daripada jadual di atas bahawa kesan MPU adalah lebih baik dan boleh menyesuaikan diri dengan tugas pengesanan teks pelbagai skala AI.

Ringkasan

Penulis menyelesaikan masalah pengesan teks untuk pengecaman ayat pendek dengan mencadangkan penyelesaian berdasarkan pembelajaran PU berskala Dengan percambahan model generasi AIGC pada masa hadapan , pengesanan jenis kandungan ini akan menjadi semakin penting. Penyelidikan ini telah mengambil langkah yang kukuh ke hadapan dalam isu pengesanan teks AI Diharapkan terdapat lebih banyak penyelidikan serupa pada masa hadapan untuk mengawal kandungan AIGC dengan lebih baik dan mencegah penyalahgunaan kandungan yang dihasilkan oleh AI.

Atas ialah kandungan terperinci Mengenal pasti 'penipuan ChatGPT', kesannya mengatasi OpenAI: Universiti Peking dan pengesan janaan AI Huawei ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!