Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat-AI-php.cn

Tidak disangka-sangka, kumpulan pertama orang yang tersingkir selepas AI berkembang ialah orang yang membantu melatih AI.

Banyak aplikasi NLP memerlukan anotasi manual bagi sejumlah besar data untuk pelbagai tugas, terutamanya pengelas latihan atau menilai prestasi model tanpa pengawasan. Bergantung pada skala dan kerumitan, tugas-tugas ini mungkin dilakukan oleh pekerja sumber ramai pada platform seperti MTurk serta anotasi terlatih seperti pembantu penyelidik.

Kami tahu bahawa model bahasa besar (LLM) boleh "muncul" selepas mencapai skala tertentu - iaitu, mereka boleh memperoleh keupayaan baharu yang sebelum ini tidak dijangka. Sebagai model besar yang mempromosikan wabak baharu AI, keupayaan ChatGPT dalam banyak tugas telah melebihi jangkaan orang ramai, termasuk melabel set data dan melatih diri anda.

Baru-baru ini, penyelidik dari Universiti Zurich telah menunjukkan bahawa ChatGPT mengatasi platform kerja penyumberan ramai dan kerja manusia dalam pelbagai tugas anotasi, termasuk perkaitan, pendirian, topik dan pembantu pengesanan.

Selain itu, penyelidik melakukan pengiraan: Kos ChatGPT kurang daripada $0.003 setiap anotasi — kira-kira 20 kali lebih murah daripada MTurk. Keputusan ini menunjukkan potensi model bahasa yang besar untuk meningkatkan kecekapan pengelasan teks.

Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat

Pautan kertas: https://arxiv.org/abs/2303.15056

Butiran Penyelidikan

Banyak aplikasi NLP memerlukan data beranotasi berkualiti tinggi, terutamanya untuk pengelas latihan atau menilai prestasi model tanpa pengawasan. Sebagai contoh, penyelidik kadangkala perlu menapis data media sosial yang bising untuk kaitan, menetapkan teks kepada topik atau kategori konsep yang berbeza, atau mengukur pendirian emosi mereka. Tidak kira kaedah khusus yang digunakan untuk tugasan ini (pembelajaran diselia, separa penyeliaan atau tanpa penyeliaan), data yang dilabel dengan tepat diperlukan untuk membina set latihan atau menggunakannya sebagai standard emas untuk menilai prestasi.

Cara biasa orang menangani perkara ini ialah merekrut pembantu penyelidik atau menggunakan platform sumber ramai seperti MTurk. Apabila OpenAI membina ChatGPT, ia turut mengurangkan masalah kandungan negatif kepada agensi anotasi data di Kenya, dan menjalankan banyak latihan anotasi sebelum ia dilancarkan secara rasmi.

Laporan yang diserahkan oleh Universiti Zurich di Switzerland ini meneroka potensi model bahasa besar (LLM) dalam tugas anotasi teks, dengan tumpuan pada ChatGPT yang dikeluarkan pada November 2022. Ia membuktikan bahawa pukulan sifar (iaitu tanpa sebarang latihan tambahan) ChatGPT mengatasi anotasi MTurk pada tugas pengelasan pada hanya beberapa persepuluh daripada kos buruh manual.

Para penyelidik menggunakan sampel 2,382 tweet yang dikumpulkan dalam kajian terdahulu. Tweet tersebut telah dilabelkan oleh annotator terlatih (pembantu penyelidik) untuk lima tugas berbeza: perkaitan, pendirian, topik dan dua pengesanan bingkai. Dalam percubaan, penyelidik menyerahkan tugas kepada ChatGPT sebagai klasifikasi sifar pukulan dan pada masa yang sama kepada pekerja penyumberan ramai di MTurk, dan kemudian menilai prestasi ChatGPT berdasarkan dua penanda aras: berbanding dengan ketepatan pekerja manusia pada platform penyumberan ramai, dan ketepatan berbanding dengan anotasi pembantu penyelidik.

Didapati bahawa pada empat daripada lima tugasan, ChatGPT mempunyai ketepatan sampel sifar yang lebih tinggi daripada MTurk. Untuk semua tugasan, perjanjian pengekod ChatGPT melebihi perjanjian MTurk dan anotasi terlatih. Tambahan pula, dari segi kos, ChatGPT jauh lebih murah daripada MTurk: lima tugas klasifikasi berharga kira-kira $68 pada ChatGPT (25264 anotasi) dan kira-kira $657 pada MTurk (12632 anotasi).

Itu meletakkan kos setiap anotasi ChatGPT pada kira-kira $0.003, atau satu pertiga daripada satu sen — kira-kira 20 kali lebih murah daripada MTurk, dan dengan kualiti yang lebih tinggi. Memandangkan ini, kini anda boleh menganotasi lebih banyak sampel atau membuat set latihan yang besar untuk pembelajaran diselia. Berdasarkan ujian sedia ada, 100,000 anotasi berharga kira-kira $300.

Walaupun penyelidikan lanjut diperlukan untuk lebih memahami cara ChatGPT dan LLM lain berfungsi dalam konteks yang lebih luas, keputusan ini mencadangkan mereka berpotensi mengubah cara penyelidik menjalankan Cara data dianotasi, dan mengganggu sebahagian daripada model perniagaan platform seperti MTurk.

Prosedur Eksperimen

Para penyelidik menggunakan set data sebanyak 2382 tweet yang diberi anotasi secara manual daripada kajian terdahulu tentang tugasan yang berkaitan dengan penyederhanaan kandungan. Khususnya, annotator terlatih (pembantu penyelidik) membina piawaian emas untuk lima kategori konsep dengan bilangan kategori yang berbeza-beza: kaitan tweet dengan soalan penyederhanaan kandungan (berkaitan/tidak berkaitan dengan Perkara 230 (kedudukan sebagai sebahagian daripada Akta Kesopanan Komunikasi A.S. 1996) , bahagian penting perundangan Internet A.S. (enam kategori rangka kerja Kumpulan 1 (penyederhanaan kandungan sebagai masalah, penyelesaian atau neutral dan Bahagian 1 Dua set rangka kerja);

Para penyelidik kemudian menjalankan klasifikasi yang sama menggunakan ChatGPT dan pekerja sumber ramai yang diambil di MTurk. Empat set anotasi telah dibuat untuk ChatGPT. Untuk meneroka kesan parameter suhu ChatGPT yang mengawal tahap rawak dalam output, ia dianotasi di sini dengan nilai lalai 1 dan 0.2, yang membayangkan kurang rawak. Untuk setiap nilai suhu, penyelidik melakukan dua set anotasi untuk mengira perjanjian pengekod ChatGPT.

Bagi pakar, kajian itu mendapati dua pelajar siswazah sains politik membuat anotasi tweet untuk kesemua lima tugasan. Untuk setiap tugas, pengkod diberi set arahan yang sama dan diminta untuk memberi anotasi tweet secara bebas berdasarkan tugas demi tugas. Untuk mengira ketepatan ChatGPT dan MTurk, perbandingan hanya mempertimbangkan tweet yang dipersetujui oleh kedua-dua annotator terlatih.

Untuk MTurk, matlamat penyelidikan adalah untuk memilih kumpulan pekerja terbaik, terutamanya mereka yang diklasifikasikan oleh Amazon sebagai "Master MTurk", mempunyai lebih daripada 90% ulasan positif, dan bekerja di Amerika Syarikat yang.

Kajian ini menggunakan versi "gpt-3.5-turbo" API ChatGPT untuk mengklasifikasikan tweet. Anotasi berlaku antara 9 Mac dan 20 Mac 2023. Untuk setiap tugas anotasi, penyelidik sengaja mengelak daripada menambah sebarang gesaan khusus ChatGPT seperti "mari kita fikir langkah demi langkah" untuk memastikan perbandingan antara ChatGPT dan pekerja ramai MTurk.

Selepas menguji beberapa variasi, orang memutuskan untuk menyuap tweet ke ChatGPT satu demi satu dengan gesaan seperti ini: "Ini adalah tweet yang saya pilih, sila tandakannya Selain itu, empat respons ChatGPT telah dikumpulkan untuk setiap tweet dalam kajian ini, dan sesi sembang baharu juga dibuat untuk setiap tweet untuk memastikan hasil ChatGPT Tidak terjejas oleh sejarah anotasi

Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat

. Rajah 1. ChatGPT sifar berbanding dengan pencatat skor tinggi pada keupayaan anotasi teks -shot ChatGPT adalah lebih baik daripada MTurk dalam empat daripada lima tugasan di atas, ChatGPT mempunyai kelebihan empat tugasan, ChatGPT mempunyai sedikit kelebihan dalam satu kes (kaitan), tetapi prestasinya sangat serupa dengan MTurk Dalam tiga kes lain (frams I, frams II, dan Stance), ChatGPT mengatasi MTurk sebanyak 2.2 hingga 2.2%. 3.4 kali Selain itu, memandangkan kesukaran tugas, bilangan kelas, dan fakta bahawa anotasi adalah sifar-sampel, ketepatan ChatGPT secara amnya lebih daripada mencukupi untuk korelasi, terdapat dua kategori (berkaitan/berkaitan. tidak relevan), ChatGPT mempunyai ketepatan 72.8%, manakala sebagai contoh, terdapat tiga kategori (positif/negatif/neutral) dengan ketepatan 78.7%. Tugasan juga mempunyai kesan. Mengenai protokol pengekod, Rajah 1 menunjukkan bahawa prestasi ChatGPT adalah sangat tinggi, dengan prestasi melebihi 95% untuk semua tugas apabila parameter suhu ditetapkan kepada 0.2 nilai ini lebih tinggi daripada mana-mana manusia, termasuk yang terlatih. Hubungan antara persetujuan antara pengekod dan ketepatan adalah positif tetapi lemah (Pekali korelasi Pearson: 0.17 Walaupun korelasi hanya berdasarkan lima titik data, ia menunjukkan bahawa nilai suhu yang lebih rendah mungkin lebih sesuai untuk tugas anotasi, kerana ia seolah-olah meningkatkan ketekalan keputusan tanpa mengurangkan ketepatan dengan ketara 🎜>Perlu ditegaskan bahawa ujian ChatGPT ialah topik yang kompleks yang memerlukan sumber yang signifikan dan penyelidik membangunkan konsep untuk. tujuan penyelidikan khusus Selain itu, beberapa tugas melibatkan sejumlah besar kategori, namun ChatGPT masih mencapai ketepatan yang tinggi.

Menggunakan model untuk menganotasi data bukanlah perkara baharu dalam penyelidikan sains komputer menggunakan set data berskala besar, orang sering melabelkan sebilangan kecil sampel dan kemudian menguatkannya dengan pembelajaran mesin. Walau bagaimanapun, selepas mengatasi prestasi manusia, kami mungkin boleh lebih mempercayai penilaian daripada ChatGPT pada masa hadapan.

Atas ialah kandungan terperinci Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!