Membina Undang-undang Penskalaan daripada 80 model: karya baharu oleh pelajar kedoktoran Cina, sangat disyorkan oleh pengarang rantaian pemikiran-AI-php.cn

Dalam bidang AI, undang-undang penskalaan ialah alat yang berkuasa untuk memahami arah aliran penskalaan LM. Undang-undang ini menyediakan panduan penting untuk memahami bagaimana prestasi model bahasa berubah mengikut skala.

Tetapi malangnya, analisis penskalaan tidak biasa dalam kebanyakan kajian penanda aras dan pasca latihan kerana kebanyakan penyelidik tidak mempunyai sumber pengiraan untuk membina undang-undang penskalaan dari awal, dan skala latihan model terbuka terlalu sedikit untuk Dipercayai. ramalan pengembangan.

Penyelidik dari Universiti Stanford, Universiti Toronto dan institusi lain telah mencadangkan kaedah pemerhatian alternatif: Undang-undang Penskalaan Pemerhatian, yang menggabungkan fungsi model bahasa (LM) dengan merentas pelbagai keluarga model prestasi hiliran, bukan hanya dalam siri tunggal seperti yang berlaku dengan undang-undang pengembangan pengiraan standard.

Kaedah ini memintas latihan model dan sebaliknya membina undang-undang penskalaan berdasarkan kira-kira 80 model yang tersedia untuk umum. Tetapi ini membawa kepada masalah lain Membina undang-undang pengembangan tunggal daripada pelbagai keluarga model menghadapi cabaran besar kerana perbezaan besar dalam melatih kecekapan dan keupayaan pengiraan antara model yang berbeza.

Namun begitu, kajian menunjukkan bahawa perubahan ini selaras dengan undang-undang penskalaan yang mudah dan umum, di mana prestasi model bahasa adalah fungsi ruang keupayaan dimensi rendah, Dan keseluruhan keluarga model hanya berbeza dalam kecekapan penukaran. pengiraan latihan kepada keupayaan.

Menggunakan kaedah di atas, kajian ini menunjukkan kebolehramalan yang menakjubkan bagi banyak jenis kajian lanjutan yang lain, mereka mendapati bahawa: beberapa fenomena yang timbul mengikuti tingkah laku sigmoid yang lancar dan boleh diramalkan daripada model kecil seperti GPT-4 Prestasi ejen daripada boleh diramalkan dengan tepat daripada penanda aras bukan ejen yang lebih mudah. Selain itu, kajian menunjukkan cara untuk meramalkan kesan intervensi selepas latihan seperti rantaian pemikiran pada model.

Penyelidikan menunjukkan bahawa walaupun dipasang hanya menggunakan model sub-GPT-3 kecil, undang-undang pengembangan yang boleh diperhatikan dengan tepat meramalkan fenomena kompleks seperti kapasiti kemunculan, prestasi ejen dan pengembangan kaedah pasca latihan seperti rantai pemikiran).

Alamat kertas: https://arxiv.org/pdf/2405.10938
Tajuk kertas: Undang-undang Penskalaan Pemerhatian dan Kebolehramalan Model Bahasa

adalah tiga pengarang makalah itu, antaranya Yangjun Ruan adalah seorang pengarang Cina Dia lulus dari Universiti Zhejiang dengan ijazah sarjana muda.

Kertas ini juga menerima komen yang dikemukakan daripada Jason Wei, penganjur rantaian pemikiran Jason Wei berkata bahawa dia sangat menyukai penyelidikan ini.

Kertas Pengenalan 从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

Kajian mendapati bahawa beratus-ratus model terbuka kini wujud, dengan skala dan keupayaan yang berbeza. Walau bagaimanapun, penyelidik tidak boleh menggunakan model ini secara langsung untuk mengira undang-undang pengembangan (kerana kecekapan pengiraan latihan sangat berbeza antara keluarga model), tetapi penyelidik berharap bahawa terdapat undang-undang pengembangan yang lebih umum yang digunakan untuk keluarga model.

Khususnya, kertas kerja ini menganggap bahawa prestasi hiliran LM adalah fungsi ruang keupayaan dimensi rendah (seperti pemahaman bahasa semula jadi, penaakulan dan penjanaan kod), dan keluarga model berbeza hanya dalam kecekapan mereka. dalam menukar pengiraan latihan kepada keupayaan ini. Jika perhubungan ini benar, ini bermakna terdapat perhubungan log-linear daripada keupayaan dimensi rendah kepada keupayaan hiliran merentas keluarga model (yang membolehkan penyelidik mewujudkan undang-undang penskalaan menggunakan model sedia ada) (Rajah 1). Kajian ini memperoleh ramalan sambungan resolusi tinggi kos rendah menggunakan hampir 80 LM yang tersedia secara umum (kanan).

Dengan menganalisis penanda aras LM standard (cth., Open LLM Leaderboard), penyelidik telah menemui beberapa langkah keupayaan sedemikian, yang mempunyai hubungan undang-undang pengembangan dengan jumlah pengiraan dalam keluarga model (R^2 > 0.9) (lihat Rajah 3 di bawah), dan hubungan ini juga wujud di kalangan keluarga model yang berbeza dan penunjuk hiliran. Artikel ini memanggil hubungan pengembangan ini sebagai undang-undang pengembangan yang boleh diperhatikan.

Akhir sekali, kajian ini menunjukkan bahawa menggunakan undang-undang pengembangan yang boleh diperhatikan adalah murah dan mudah, kerana terdapat beberapa siri model yang mencukupi untuk meniru banyak penemuan teras kajian. Dengan menggunakan pendekatan ini, kajian mendapati ramalan penskalaan untuk intervensi garis dasar dan selepas latihan boleh dicapai dengan mudah dengan menilai hanya 10-20 model.. Undang-undang pengembangan yang boleh diperhatikan mencadangkan bahawa beberapa fenomena ini mengikuti lengkung berbentuk S licin dan boleh diramalkan dengan tepat menggunakan model sub Llama-2 7B yang kecil.

Keupayaan Ejen

Kajian ini menunjukkan bahawa LM sebagai keupayaan ejen yang lebih maju dan kompleks, seperti yang diukur oleh AgentBoardBench, boleh diukur dengan menggunakan undang-undang. Melalui undang-undang penskalaan yang boleh diperhatikan, kajian meramalkan prestasi GPT-4 dengan tepat hanya menggunakan model yang lebih lemah (sub GPT-3.5) dan mengenal pasti keupayaan pengaturcaraan sebagai faktor pemacu prestasi ejen. . -Pemikiran, Konsistensi Diri, dsb.

Secara keseluruhannya, sumbangan kajian ini adalah untuk mencadangkan undang-undang skala yang boleh diperhatikan yang mengeksploitasi hubungan log-linear yang boleh diramal antara pengiraan, ukuran keupayaan mudah dan penunjuk hiliran yang kompleks.

Pengesahan undang-undang pengembangan yang boleh diperhatikan

Penyelidik telah mengesahkan kegunaan undang-undang pengembangan ini melalui eksperimen. Di samping itu, selepas kertas itu diterbitkan, para penyelidik juga telah mendaftarkan ramalan untuk model masa depan untuk menguji sama ada undang-undang pengembangan mengatasi model semasa. Kod yang berkaitan tentang proses pelaksanaan dan pengumpulan data telah dikeluarkan pada GitHub:

Alamat GitHub: https://github.com/ryoungj/ObsScaling

Kebolehramalan

keupayaan muncul

Rajah 4 di bawah menunjukkan keputusan ramalan menggunakan pengukuran PC (keupayaan utama) dan keputusan garis dasar prestasi ramalan berdasarkan FLOP latihan. Ia boleh didapati bahawa kebolehan ini boleh diramalkan dengan tepat menggunakan metrik PC kami walaupun hanya menggunakan model yang berprestasi buruk.

Sebaliknya, menggunakan FLOP latihan menghasilkan ekstrapolasi yang lebih teruk pada set ujian dan kesesuaian yang ketara pada set latihan, seperti yang ditunjukkan oleh nilai MSE yang lebih tinggi. Perbezaan ini mungkin disebabkan oleh latihan FLOP untuk keluarga model yang berbeza.

Kebolehramalan Keupayaan Ejen

Rajah 5 di bawah menunjukkan keputusan ramalan undang-undang pengembangan boleh diperhatikan menggunakan metrik PC. Ia boleh didapati bahawa pada kedua-dua penanda aras ejen, prestasi model tahan (GPT-4 atau Claude-2) menggunakan metrik PC boleh diramal dengan tepat daripada model dengan prestasi yang lebih lemah (jurang lebih daripada 10%).

Ini menunjukkan bahawa keupayaan ejen LM yang lebih kompleks berkait rapat dengan keupayaan model asasnya dan mampu membuat ramalan berdasarkan yang terakhir. Ini juga menggambarkan bahawa apabila LM tulang belakang terus berkembang dalam skala, keupayaan ejen berasaskan LM mempunyai ciri kebolehskalaan yang baik.

Impak teknik selepas latihan

Rajah 6a di bawah menunjukkan keputusan ramalan pengembangan CoT dan SC (Self-Consistency, self-consistency) menggunakan undang-undang pengembangan yang boleh diperhatikan. Ia boleh didapati bahawa prestasi model yang lebih kuat dan lebih besar menggunakan CoT dan CoT+SC tanpa teknik pasca latihan (naif) boleh diramalkan dengan tepat daripada model yang lebih lemah dengan skala pengiraan yang lebih kecil (seperti saiz model dan latihan FLOP).

Perlu diperhatikan bahawa trend penskalaan adalah berbeza antara kedua-dua teknologi, dengan CoT menunjukkan trend penskalaan yang lebih jelas berbanding dengan menggunakan ketekalan diri CoT.

Sila rujuk kertas asal untuk butiran lanjut teknikal.

Atas ialah kandungan terperinci Membina Undang-undang Penskalaan daripada 80 model: karya baharu oleh pelajar kedoktoran Cina, sangat disyorkan oleh pengarang rantaian pemikiran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!