Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT-AI-php.cn

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

王林

Lepaskan： 2023-05-18 11:13:06

ke hadapan

1075 orang telah melayarinya

Selepas ChatGPT menjadi popular, terdapat banyak kegunaan.

Sesetengah orang menggunakannya untuk mendapatkan nasihat kehidupan, sesetengah orang hanya menggunakannya sebagai enjin carian, dan sesetengah orang menggunakannya untuk menulis kertas kerja.

Tesis... bukan senang nak tulis.

Sesetengah universiti di Amerika Syarikat telah melarang pelajar menggunakan ChatGPT untuk menulis kerja rumah, dan juga telah membangunkan sekumpulan perisian untuk mengenal pasti dan menentukan sama ada kertas yang diserahkan oleh pelajar dihasilkan oleh GPT .

Ada masalah di sini.

Kertas seseorang ditulis dengan buruk, dan AI yang menilai teks menyangka ia ditulis oleh rakan sebaya.

Apa yang lebih menarik ialah kebarangkalian kertas Bahasa Inggeris yang ditulis oleh bahasa Cina dinilai sebagai AI yang dijana oleh AI adalah setinggi 61%.

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Ini... apakah maksudnya? Menggigil!

Penutur bukan penutur asli tidak layak?

Pada masa ini, model bahasa generatif berkembang pesat dan sememangnya telah membawa kemajuan yang besar kepada komunikasi digital.

Tetapi terdapat banyak penyalahgunaan.

Walaupun penyelidik telah mencadangkan banyak kaedah pengesanan untuk membezakan AI dan kandungan yang dihasilkan manusia, keadilan dan kestabilan kaedah pengesanan ini masih perlu dipertingkatkan.

Untuk melakukan ini, penyelidik menilai prestasi beberapa pengesan GPT yang digunakan secara meluas menggunakan karya yang ditulis oleh pengarang asli dan bukan asli berbahasa Inggeris.

Hasil penyelidikan menunjukkan bahawa pengesan ini sentiasa tersilap menentukan bahawa sampel yang ditulis oleh bukan penutur asli dijana oleh AI, manakala sampel yang ditulis oleh penutur asli pada asasnya boleh dikenal pasti dengan tepat.

Selain itu, penyelidik menunjukkan bahawa berat sebelah ini boleh dikurangkan menggunakan beberapa strategi mudah dan memintas pengesan GPT dengan berkesan.

Apakah maksudnya? Ini menunjukkan bahawa pengesan GPT memandang rendah kepada pengarang yang kemahiran bahasa mereka tidak begitu baik, yang sangat menjengkelkan.

Tidak boleh tidak memikirkan permainan itu untuk menilai sama ada AI adalah orang sebenar Jika lawan adalah orang sebenar tetapi anda rasa ia adalah AI, sistem akan berkata, "Orang lain mungkin mendapati anda menyinggung perasaan."

Tidak cukup kompleks=AI dijana?

Para penyelidik memperoleh 91 esei TOEFL daripada forum pendidikan Cina, dan mengekstrak 88 esei yang ditulis oleh pelajar gred lapan Amerika daripada set data Yayasan Hewlett di Amerika Syarikat untuk mengesan 7 GPT yang digunakan secara meluas. pengesan.

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Peratusan dalam carta mewakili perkadaran "salah sangka". Iaitu, ia ditulis oleh manusia, tetapi perisian pengesanan berpendapat ia dihasilkan oleh AI.

Anda dapat melihat bahawa data adalah sangat berbeza.

Antara tujuh pengesan, kebarangkalian tertinggi untuk salah menilai untuk esei yang ditulis oleh pelajar gred lapan Amerika hanya 12%, dan terdapat dua GPT dengan sifar salah penilaian.

Pada asasnya lebih separuh daripada esei TOEFL di forum bahasa Cina disalah anggap, dengan kebarangkalian salah penilaian tertinggi mencapai 76%.

18 daripada 91 esei TOEFL sebulat suara dianggap dijana oleh AI oleh kesemua 7 pengesan GPT, manakala 89 daripada 91 esei telah tersalah jana oleh sekurang-kurangnya satu pengesan GPT.

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Daripada rajah di atas kita dapat lihat bahawa esei TOEFL yang disalah anggap oleh kesemua 7 GPT mempunyai kerumitan yang lebih tinggi ( Complexity) adalah jauh lebih rendah daripada kertas lain.

Ini mengesahkan kesimpulan pada permulaan - pengesan GPT akan mempunyai kecenderungan tertentu terhadap pengarang yang mempunyai keupayaan ekspresi bahasa yang terhad.

Oleh itu, penyelidik percaya bahawa pengesan GPT harus membaca lebih banyak artikel yang ditulis oleh penutur bukan asli Hanya dengan lebih banyak sampel boleh dihapuskan.

Seterusnya, penyelidik melemparkan esei TOEFL yang ditulis oleh bukan penutur asli ke dalam ChatGPT untuk memperkayakan bahasa dan meniru tabiat penggunaan perkataan penutur asli.

Pada masa yang sama, sebagai kumpulan kawalan, gubahan yang ditulis oleh kanak-kanak darjah lapan Amerika juga dilemparkan ke dalam ChatGPT, dan bahasa itu dipermudahkan untuk meniru ciri penulisan bukan asli. pembesar suara. Gambar di bawah ialah keputusan penghakiman baharu selepas pembetulan.

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Kita dapati bahawa keadaan telah berubah secara drastik, dan kadar salah menilai esei TOEFL yang memperkaya bahasa telah menjunam. . , serendah 3%, dan setinggi 19%. Tidak seperti kadar positif palsu sebelum ini, yang pada asasnya lebih daripada separuh.

Sebaliknya, kadar salah menilai esei yang ditulis oleh kanak-kanak darjah lapan telah melonjak naik malah terdapat pengesan GPT dengan kadar salah menilai setinggi 99%, iaitu pada asasnya semuanya kesilapan.

Kerana pembolehubah kerumitan artikel telah berubah.

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Di sini penyelidik membuat kesimpulan bahawa perkara yang ditulis oleh bukan penutur asli adalah tidak tulen, mempunyai kerumitan yang rendah dan mudah disalah anggap.

Ini juga membawa kepada isu teknikal, tetapi juga isu nilai. Menggunakan kerumitan untuk menentukan sama ada AI atau manusia adalah pengarang adalah munasabah, komprehensif dan teliti.

Hasilnya jelas tidak.

Apabila kerumitan digunakan sebagai kriteria, penutur bukan penutur asli mengalami kerugian besar kerana mereka bukan penutur asli (karut).

Pengilat AI = ditulis oleh manusia? ?

Penyelidik percaya bahawa mempertingkatkan kepelbagaian bahasa bukan sahaja dapat mengurangkan berat sebelah terhadap penutur bukan asli, tetapi juga membenarkan kandungan yang dijana GPT memintas pengesan GPT.

Untuk membuktikan perkara ini, penyelidik memilih topik esei kemasukan yang digunakan untuk universiti Amerika pada 2022-2023, memasukkannya ke dalam ChatGPT-3.5, dan menghasilkan sejumlah 31 esei palsu.

Pengesan GPT berfungsi dengan baik pada mulanya, tetapi tidak pada pusingan kedua. Ini kerana, pada pusingan kedua, penyelidik melemparkan kertas-kertas ini ke dalam ChatGPT dan menggilapnya, menggunakan beberapa bahasa sastera untuk meningkatkan kualiti teks.

Akibatnya, ketepatan pengesan GPT menurun daripada 100% kepada 0%. Seperti yang ditunjukkan di bawah:

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Kerumitan artikel yang digilap juga telah meningkat dengan sewajarnya.

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Pada masa yang sama, penyelidik menggunakan 145 topik laporan projek akhir dari Universiti Stanford untuk membenarkan ChatGPT menjana abstrak .

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Selepas ringkasan digilap, ketepatan penghakiman pengesan terus menurun.

Para penyelidik sekali lagi membuat kesimpulan bahawa artikel yang digilap mudah disalah anggap dan dijana oleh AI. Dua pusingan adalah lebih baik daripada satu.

Pengesan GPT? Masih kurang amalan

Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT

Ringkasnya, secara keseluruhannya, pelbagai pengesan GPT masih nampaknya gagal menangkap hubungan antara penjanaan AI dan tulisan manusia.

Tulisan manusia juga terbahagi kepada tiga, enam atau sembilan peringkat Tidaklah munasabah untuk menilai berdasarkan kerumitan sahaja.

Mengetepikan faktor berat sebelah, teknologi itu sendiri juga memerlukan penambahbaikan.

Atas ialah kandungan terperinci Keterlaluan! Penyelidikan terkini: 61% kertas Bahasa Inggeris yang ditulis oleh orang Cina akan dinilai sebagai AI yang dijana oleh pengesan ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!