Adakah model bahasa besar salah untuk pengekodan?-AI-php.cn

Model pembelajaran pengukuhan mengalahkan AI generatif apabila matlamatnya ialah ketepatan, ketekalan, penguasaan permainan atau mencari satu jawapan yang betul.

Model bahasa berskala besar, seperti GPT-4, adalah luar biasa kerana ia boleh menghasilkan teks berkualiti tinggi, licin dan semula jadi yang sangat meyakinkan. Malangnya, begitu juga gembar-gembur: Penyelidik Microsoft tanpa nafas menggambarkan model OpenAI GPT-4 yang dibiayai oleh Microsoft sebagai menunjukkan "percikan kecerdasan am buatan."

Sudah tentu, melainkan Microsoft merujuk kepada kecenderungan untuk berhalusinasi, teks ralat yang dijana mestilah salah. GPT tidak pandai bermain permainan seperti catur dan Go, ia tidak mahir dalam matematik, dan kod yang ditulisnya mungkin mempunyai ralat dan kelemahan yang halus.

Ini tidak bermakna model bahasa besar semuanya gembar-gembur. Kami memerlukan beberapa sudut baharu untuk membincangkan kecerdasan buatan generatif (GenAI) tanpa terlalu membesar-besarkan perbezaannya daripada teknologi lain.

Seperti yang diperincikan dalam artikel IEEESpectrum, sesetengah pakar, seperti Ilya Sutskever OpenAI, percaya bahawa menambah pembelajaran pengukuhan dengan maklum balas manusia boleh menghapuskan ilusi LLM. Tetapi yang lain, seperti Yann LeCun dan Geoff Hinton Meta (baru-baru ini bersara daripada Google), berpendapat lebih banyak kelemahan asas dalam model bahasa besar sedang berfungsi. Kedua-duanya percaya bahawa model bahasa besar kekurangan pengetahuan bukan linguistik yang penting untuk memahami realiti asas yang diterangkan oleh bahasa.

Ketua Pegawai Eksekutif Diffblue Mathew Lodge menunjukkan dalam temu bual bahawa terdapat penyelesaian yang lebih baik. Dia berkata, "Model pembelajaran pengukuhan yang kecil, pantas dan murah untuk dijalankan dengan mudah boleh mengalahkan model bahasa besar dengan ratusan bilion parameter dalam tugasan daripada bermain permainan hingga menulis kod."

Adakah kita mencari emas AI di tempat yang salah?

Apa yang Lodge katakan ialah AI generatif pasti mempunyai kegunaannya, tetapi mungkin kita cuba untuk Ia memaksa pengenalan kawasan pembelajaran pengukuhan yang tidak sesuai dengannya. Ambil permainan sebagai contoh.

Levy Rozman, seorang grandmaster catur, menyiarkan video dirinya bermain menentang ChatGPT (kepintaran buatan berasaskan sembang). Model itu membuat beberapa siri langkah yang tidak masuk akal dan haram, termasuk menangkap karyanya sendiri. Perisian catur sumber terbuka terbaik (Stockfish, yang tidak menggunakan rangkaian saraf sama sekali) membolehkan ChatGPT mengalahkannya dalam masa kurang daripada 10 pergerakan kerana model bahasa besar tidak dapat mencari pergerakan undang-undang. Ini membuktikan bahawa model bahasa yang besar kurang daripada gembar-gembur kecerdasan buatan umum, dan ini bukan contoh terpencil.

Disebabkan algoritma pembelajaran pengukuhannya, Google AlphaGo ialah kecerdasan buatan Go yang berprestasi terbaik pada masa ini. Pembelajaran pengukuhan berfungsi dengan menjana penyelesaian yang berbeza untuk masalah, mencubanya, menggunakan keputusan untuk menambah baik cadangan seterusnya, dan kemudian mengulangi proses beribu kali untuk mencari hasil yang terbaik.

Dalam kes AlphaGo, AI mencuba pergerakan yang berbeza dan meramalkan sama ada ini adalah langkah yang baik dan sama ada ia berkemungkinan memenangi permainan dari kedudukan ini. Ia menggunakan maklum balas untuk "menjejaki" urutan pergerakan yang menjanjikan dan menjana pergerakan lain yang mungkin. Kesannya ialah mencari pergerakan yang mungkin.

Proses ini dipanggil carian probabilistik. Walaupun terdapat banyak pergerakan, anda tidak perlu mencuba semuanya, tetapi anda boleh dengan sabar mencari kawasan yang anda mungkin dapati langkah terbaik. Ini berfungsi hebat untuk permainan. AlphaGo telah mengalahkan ahli Go pada masa lalu. AlphaGo tidak sempurna, tetapi pada masa ini ia berprestasi lebih baik daripada model bahasa berskala besar terbaik yang tersedia hari ini.

Kebarangkalian vs. Ketepatan

Penyokong percaya bahawa walaupun terdapat bukti bahawa model bahasa besar jauh ketinggalan berbanding jenis AI lain, Mereka juga menjadi lebih baik secara progresif. Walau bagaimanapun, Lodge menegaskan bahawa kita perlu memahami mengapa mereka melakukan tugasan ini dengan lebih baik jika kita mahu menerima idea ini. Sebab kesukaran dalam isu ini, lanjutnya, ialah tiada siapa yang boleh meramalkan dengan tepat bagaimana GPT-4 akan bertindak balas terhadap isyarat tertentu. Corak ini di luar penjelasan manusia. Ini, dia percaya, adalah "sebab mengapa 'kejuruteraan tepat pada masanya' tidak wujud." mereka.

Boleh dikatakan hujah yang terbaik ialah induksi. GPT-4 adalah lebih baik daripada GPT-3 pada beberapa tugas bahasa kerana ia lebih besar. Oleh itu, model yang lebih besar adalah lebih baik.

Lodge berpendapat bahawa GPT-4 masih perlu mengatasi cabaran yang dihadapi oleh GPT-3, jadi ada masalah. Salah satu daripadanya ialah matematik; manakala GPT-4 lebih baik daripada GPT-3 pada operasi tambah, ia masih mempunyai kesesakan pada pendaraban dan operasi matematik lain.

Meningkatkan saiz model bahasa tidak menyelesaikan masalah ini secara ajaib, dan menurut OpenAI model yang lebih besar bukanlah penyelesaiannya. Sebabnya terletak pada sifat asas model bahasa yang besar, seperti yang ditunjukkan oleh forum OpenAI: “Model bahasa yang besar bersifat probabilistik dan beroperasi dengan menjana kemungkinan keluaran berdasarkan corak yang mereka perhatikan dalam data latihan dalam Matematik dan fizik , kemungkinan untuk mencari satu jawapan yang betul adalah tipis.”

Dalam proses kecerdasan buatan, kaedah yang didorong oleh pembelajaran pengukuhan dapat menghasilkan keputusan yang lebih tepat kerana ia merupakan proses mengejar sesuatu matlamat. Pembelajaran pengukuhan secara berulang mencari jawapan terbaik yang paling hampir dengan matlamat untuk mencapai matlamat yang diinginkan. Lodge menyatakan bahawa kursus model bahasa yang besar "tidak direka untuk mengulangi atau mencari matlamat. Mereka direka untuk memberikan jawapan yang 'cukup baik' satu atau beberapa kali." jawapan one-shot" ialah jawapan pertama yang dihasilkan oleh model, yang diperoleh dengan meramalkan urutan perkataan dalam gesaan. "Pembelajaran beberapa pukulan" melibatkan penyediaan sampel atau petunjuk tambahan kepada model untuk membantunya menjana ramalan yang lebih baik. Model bahasa yang besar sering juga menambahkan beberapa kerawak (iaitu, ia "rawak") untuk meningkatkan kemungkinan jawapan yang lebih baik, jadi mereka akan memberikan jawapan yang berbeza kepada soalan yang sama.

Bukannya dunia model bahasa yang besar mengabaikan pembelajaran pengukuhan. GPT-4 menggabungkan "pembelajaran pengukuhan dengan maklum balas manusia" (RLHF). Model teras yang dilatih oleh pengendali manusia mengutamakan jawapan tertentu, tetapi ini secara asasnya tidak mengubah jawapan model yang dihasilkan pada mulanya. Lodge menyatakan bahawa model bahasa yang besar mungkin menyediakan pilihan berikut untuk mengisi kekosongan dalam ayat "Wayne Gretzky suka ais..."

1. Wayne Gretzky suka aiskrim.

2. Wayne Gretzky suka hoki.

3. Wayne Gretzky suka memancing ais.

4. Wayne Gretzky suka meluncur.

5. Wayne Gretzky suka wain ais.

Pengendali manusia menilai jawapan mungkin telah membuat kesimpulan bahawa pemain hoki lagenda Kanada itu lebih gemar bermain hoki ais dan meluncur, walaupun tarikan ais krim yang luas. Kedudukan manusia dan lebih banyak respons bertulis manusia digunakan untuk melatih model. Ambil perhatian bahawa GPT-4 tidak berpura-pura mengetahui dengan tepat pilihan Wayne Gretzky, hanya untuk melakukan perkara yang terbaik apabila digesa.

Akhir sekali, model bahasa besar tidak direka bentuk untuk menjadi sangat tepat atau konsisten. Terdapat pertukaran antara ketepatan dan tingkah laku deterministik sebagai pertukaran untuk umum. Bagi Lodge, semua ini bermakna pembelajaran pengukuhan mengalahkan AI generatif apabila menggunakan AI pada skala.

Menerapkan Pembelajaran Pengukuhan pada Perisian

Bagaimana dengan pembangunan perisian Semasa saya menulis, GenAI sudah ada untuk mereka yang menggunakan alatan seperti GitHubCopilot atau AmazonCodeWhisperer? Peluang disediakan untuk meningkatkan produktiviti pembangun. Ini bukan spekulasi - ia telah berlaku. Alat ini boleh meramalkan kod yang mungkin muncul seterusnya, berdasarkan kod sebelum dan selepas titik sisipan dalam persekitaran pembangunan bersepadu.

Malah, seperti yang dikatakan oleh David Ramel dari Visual Studio Magazine, versi terkini Copilot sudah menjana 61% kod Java. Bagi mereka yang bimbang bahawa ini akan mengurangkan kerja pembangun perisian, ingat bahawa alat ini memerlukan pengawasan manusia yang teliti untuk menyemak penyiapan dan mengeditnya supaya kod disusun dan berjalan dengan betul. Autolengkap telah menjadi ruji IDE sejak zaman awal mereka, dan Copilot dan penjana kod lain menjadikannya lebih berguna. Pengekodan autonomi berskala besar adalah berbeza, malah 61% daripada kod Java perlu ditulis.

Walau bagaimanapun, pembelajaran pengukuhan membolehkan pengekodan autonomi yang tepat pada skala, kata Lodge. Sudah tentu, dia mempunyai kepentingan untuk menyatakan perkara ini: Pada 2019, syarikatnya Diffblue mengeluarkan Cover, alat menulis ujian unit komersial berdasarkan pembelajaran pengukuhan. Cover menulis suite ujian unit yang lengkap tanpa campur tangan manusia, yang memungkinkan untuk mengautomasikan tugasan yang kompleks dan mudah ralat pada skala.

Adakah Lodge berat sebelah? Beliau mempunyai banyak pengalaman yang membenarkan kepercayaannya bahawa pembelajaran pengukuhan mengatasi GenAI dalam pembangunan perisian. Hari ini, Diffblue menggunakan pembelajaran pengukuhan untuk mencari ruang semua kaedah ujian yang mungkin, menulis kod ujian secara automatik untuk setiap kaedah dan memilih ujian terbaik antara ujian yang ditulis. Fungsi ganjaran pembelajaran pengukuhan adalah berdasarkan pelbagai kriteria, termasuk liputan ujian dan estetika, salah satunya termasuk pematuhan kepada gaya pengekodan tulisan manusia. Alat ini mencipta ujian untuk setiap kaedah dalam purata satu saat.

Lodge percaya bahawa jika matlamatnya adalah untuk menulis 10,000 unit ujian secara automatik untuk program yang tiada siapa faham, maka pembelajaran pengukuhan adalah satu-satunya penyelesaian sebenar. "Model bahasa yang besar tidak boleh bersaing; manusia tidak mempunyai cara untuk mengawasi mereka dengan berkesan dan membetulkan kod mereka pada skala ini. Membuat model yang lebih besar dan lebih kompleks tidak menyelesaikan masalah ini." Perkara yang paling berkuasa tentang model bahasa besar ialah ia adalah pemproses bahasa tujuan umum. Mereka boleh melaksanakan tugas bahasa yang mereka belum dilatih secara eksplisit. Ini bermakna mereka boleh melakukan kerja yang hebat dalam penjanaan kandungan (copywriting) dan banyak perkara lain. Lodge menekankan: "Tetapi ini tidak menjadikan model bahasa besar sebagai pengganti model kecerdasan buatan, yang selalunya berdasarkan pembelajaran pengukuhan, yang lebih tepat, lebih konsisten dan boleh digunakan pada skala

Atas ialah kandungan terperinci Adakah model bahasa besar salah untuk pengekodan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!