Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda-AI-php.cn

Penskalaan model asas merujuk kepada menggunakan lebih banyak data, pengiraan dan parameter untuk pra-latihan, iaitu hanya "pengembangan skala".

Walaupun mengembangkan secara langsung saiz model kelihatan mudah dan kasar, ia sememangnya telah membawa banyak model yang cemerlang kepada komuniti pembelajaran mesin. Banyak kajian terdahulu telah mengiktiraf amalan memperluaskan skala model neuroekonomi Apa yang dipanggil perubahan kuantitatif membawa kepada perubahan kualitatif ini juga dikenali sebagai undang-undang penskalaan saraf. Walau bagaimanapun, apabila saiz model meningkat, ia menghasilkan penggunaan sumber pengkomputeran yang intensif. Ini bermakna model yang lebih besar memerlukan lebih banyak sumber pengkomputeran, termasuk pemproses dan memori. Ini tidak boleh dilaksanakan untuk banyak aplikasi praktikal, terutamanya pada peranti yang dikekang sumber. Oleh itu, penyelidik telah mula memberi tumpuan kepada cara menggunakan sumber pengkomputeran dengan lebih cekap untuk menambah baik model Baru-baru ini, ramai orang percaya bahawa "data" adalah kunci kepada model sumber tertutup terbaik semasa, sama ada LLM, VLM juga merupakan model penyebaran. . Memandangkan kepentingan kualiti data telah diiktiraf, banyak penyelidikan telah muncul bertujuan untuk meningkatkan kualiti data: sama ada menapis data berkualiti tinggi daripada pangkalan data yang besar atau menjana data baharu berkualiti tinggi. Walau bagaimanapun, undang-undang pengembangan pada masa lalu secara amnya menganggap "data" sebagai entiti homogen, dan tidak mengambil "kualiti data" yang telah menarik perhatian baru-baru ini sebagai dimensi pertimbangan.

Walaupun model data yang luas di web, data berkualiti tinggi (berdasarkan berbilang metrik penilaian) selalunya terhad. Kini, penyelidikan terobosan akan datang - undang-undang pengembangan dalam dimensi penapisan data! Ia datang dari Universiti Carnegie Mellon dan Pusat Bosch untuk AI, dengan tumpuan khusus pada pertukaran kualiti kuantiti (QQT) antara "skala besar" dan "kualiti tinggi."

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

paper Tajuk: Undang -undang Skala untuk Penapisan Data -Data Curation tidak boleh mengira Agnostic

paper Alamat: https://arxiv.org/pdf/2404.07177.pdf
Alamat kod: https://github.com/locuslab/scaling_laws_data_filtering

epoliti tinggi, seperti yang ditunjukkan dalam Rajah 1. ) tidak besar (kerana model telah menyelesaikan pembelajaran).

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda Pada masa ini, selalunya lebih membantu untuk menggunakan data berkualiti rendah (dengan kurang utiliti pada mulanya) daripada menggunakan semula data berkualiti tinggi.

Di bawah pertukaran kuantiti kualiti (QQT), bagaimanakah kita menentukan jenis gabungan data yang lebih baik untuk latihan?

Untuk menjawab soalan ini, sebarang aliran kerja penyusunan data mesti mempertimbangkan jumlah usaha pengiraan yang digunakan untuk latihan model. Ini berbeza dengan pandangan komuniti tentang penapisan data. Contohnya, strategi penapisan LAION mengekstrak kualiti tertinggi 10% daripada hasil rangkak biasa.

Tetapi seperti yang dapat dilihat dari Rajah 2, adalah jelas bahawa sebaik sahaja latihan melebihi 35 zaman, kesan latihan pada set data yang tidak teratur sepenuhnya adalah lebih baik daripada latihan pada data berkualiti tinggi yang dianjurkan menggunakan strategi LAION.

Undang-undang pengembangan saraf semasa tidak boleh memodelkan pertukaran dinamik ini antara kualiti dan kuantiti. Di samping itu, terdapat lebih sedikit kajian mengenai lanjutan model bahasa visual, dan kebanyakan penyelidikan semasa terhad kepada bidang pemodelan bahasa. Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

Penyelidikan terobosan yang akan kami perkenalkan hari ini telah mengatasi tiga had penting undang-undang pengembangan saraf sebelumnya, dan ia telah melakukannya:

(1) Pertimbangkan paksi "kualiti" semasa mengembangkan data

(2) Anggarkan undang-undang pengembangan gabungan kumpulan data (tanpa latihan sebenarnya mengenai gabungan), yang membantu membimbing keputusan penyepaduan data yang optimum

(3) Laraskan undang-undang pengembangan LLM, Ini menjadikannya sesuai untuk kontrastif; latihan (seperti CLIP), di mana setiap kumpulan mempunyai bilangan perbandingan persegi.

Pasukan mencadangkan undang-undang pengembangan untuk jumlah data rangkaian yang heterogen dan terhad buat kali pertama.

Model besar dilatih pada gabungan kumpulan data pelbagai kualiti. Dengan memodelkan utiliti data agregat yang diperoleh daripada parameter resapan kumpulan data individu (AF dalam Rajah 1 (a)), adalah mungkin untuk menganggarkan prestasi model secara langsung pada sebarang gabungan kumpulan data ini.

Adalah penting untuk menunjukkan bahawa kaedah ini tidak memerlukan latihan pada gabungan kumpulan data ini untuk menganggarkan undang-undang pengembangannya, tetapi boleh menganggarkan secara langsung keluk pengembangannya berdasarkan parameter pengembangan setiap kumpulan komponen.

Berbanding dengan undang-undang pengembangan pada masa lalu, undang-undang pengembangan di sini mempunyai beberapa perbezaan penting, yang boleh memodelkan dan membandingkan ulangan dalam mekanisme latihan dan mencapai perbandingan O (n²). Sebagai contoh, jika saiz kolam latihan digandakan, bilangan perbandingan yang menyumbang kepada kehilangan model akan menjadi empat kali ganda.

Mereka menerangkan secara matematik cara data daripada kumpulan berbeza berinteraksi antara satu sama lain, membolehkan prestasi model dianggarkan di bawah gabungan data yang berbeza. Ini menghasilkan strategi organisasi data yang sesuai untuk pengiraan yang tersedia pada masa ini.

Mesej utama daripada kajian ini ialah: Penyusunan data tidak boleh dilakukan tanpa pengiraan.

Apabila belanjawan pengiraan adalah kecil (kurang pengulangan), kualiti diutamakan di bawah pertukaran QQT, seperti yang ditunjukkan dalam Rajah 1 dengan prestasi terbaik penapisan agresif (E) pada kos pengiraan yang rendah.

Sebaliknya, apabila skala pengiraan jauh melebihi data latihan yang digunakan, utiliti data berkualiti tinggi yang terhad akan berkurangan, dan anda perlu mencari cara untuk menebusnya. Ini menghasilkan strategi penapisan yang kurang agresif, iaitu prestasi yang lebih baik dengan volum data yang lebih besar.

Pasukan menjalankan demonstrasi percubaan yang menunjukkan bahawa undang-undang penskalaan baharu untuk data rangkaian heterogen ini dapat meramalkan Pareto di bawah pelbagai belanjawan pengkomputeran daripada 32M hingga 640M menggunakan kumpulan bersaiz sederhana DataComp (128M sampel) Strategi penapisan optimum.

Penapisan data di bawah belanjawan pengkomputeran tertentu

Pasukan mengkaji kesan penapisan data di bawah belanjawan pengkomputeran yang berbeza melalui percubaan.

Mereka melatih VLM menggunakan kumpulan data awal yang besar. Untuk kumpulan data asas yang tidak ditapis, mereka memilih versi skala "sederhana" Datacomp, penanda aras kompilasi data terkini. Kumpulan data mengandungi 128M sampel. Mereka menggunakan 18 tugas hiliran yang berbeza untuk menilai prestasi sifar pukulan model.

Mereka mula-mula mengkaji strategi penapisan LAION yang digunakan untuk mendapatkan set data LAION, dan hasilnya ditunjukkan dalam Rajah 2. Mereka memerhatikan keputusan berikut:

1 Apabila belanjawan pengiraan rendah, lebih baik menggunakan data berkualiti tinggi.

2. Penapisan data boleh menyebabkan halangan apabila bajet pengiraan tinggi.

Kenapa?

Penapisan LAION mengekalkan kira-kira 10% daripada data, jadi belanjawan pengiraan adalah lebih kurang 450M, dan setiap sampel daripada kumpulan LAION yang ditapis digunakan kira-kira 32 kali. Wawasan utama di sini ialah jika sampel yang sama dilihat beberapa kali semasa latihan, utiliti akan berkurangan setiap kali.

Pasukan kemudian mengkaji dua kaedah penapisan data lain:

(1) Penapisan skor CLIP, menggunakan model CLIP L/14

(2) T-MARS, selepas menyamarkan; berdasarkan skor CLIP selepas ciri teks dalam imej (OCR). Untuk setiap kaedah penapisan data, mereka menggunakan empat tahap penapisan dan pelbagai usaha pengiraan jumlah yang berbeza.

Rajah 3 menunjukkan perbandingan keputusan penapisan Top 10-20%, Top 30%, dan Top 40% CLIP apabila skala pengiraan ialah 32M, 128M, dan 640M.

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

Pada skala pengiraan 32M, strategi penapisan yang sangat agresif (mengekalkan hanya 10-20% teratas berdasarkan skor CLIP) memberikan hasil terbaik, manakala kaedah penapisan paling tidak agresif untuk mengekalkan 40% teratas melakukan terbaik. Walau bagaimanapun, apabila skala pengkomputeran dikembangkan kepada 640M, arah aliran ini diterbalikkan sepenuhnya. Trend yang sama diperhatikan menggunakan metrik skor T-MARS.

Undang-undang pengembangan penapisan data

Pasukan pertama kali menentukan utiliti secara matematik.

Pendekatan mereka bukan untuk menganggarkan kehilangan n sampel pada akhir latihan, tetapi untuk mempertimbangkan utiliti serta-merta sampel pada bila-bila masa semasa fasa latihan. Formula matematik ialah:

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

Ini menunjukkan bahawa utiliti serta-merta sampel adalah berkadar terus dengan kehilangan semasa dan berkadar songsang dengan bilangan sampel yang dilihat setakat ini. Ini juga selaras dengan pemikiran intuitif kami: apabila bilangan sampel yang dilihat oleh model meningkat, keberkesanan sampel akan berkurangan. Tumpuan adalah pada parameter utiliti data b .

Langkah seterusnya ialah utiliti data yang digunakan semula.

Secara matematik, parameter utiliti b bagi sampel yang dilihat k+1 kali ditakrifkan sebagai:

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

di mana τ ialah separuh hayat parameter utiliti. Semakin tinggi nilai τ, semakin perlahan utiliti sampel mereput dengan pengulangan. δ ialah cara ringkas untuk menulis pereputan utiliti dengan pengulangan. Kemudian, ungkapan kehilangan model selepas melihat n sampel dan setiap sampel telah dilihat k kali ialah:

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

di mana n_j ialah model pada akhir pusingan ke-j epoch latihan Bilangan sampel dilihat. Persamaan ini adalah asas kepada undang-undang pengembangan yang baru dicadangkan.

Akhir sekali, terdapat satu lagi lapisan kerumitan iaitu data rangkaian heterogen.

Kemudian kami mendapat teorem yang mereka berikan: diberi p kumpulan data secara rawak dan seragam sampel, utiliti dan parameter ulangan masing-masing adalah (b_1, τ_1)...(b_p, τ_p), kemudian setiap Separuh hayat berulang baru sebuah baldi ialah τˆ = p・τ. Tambahan pula, nilai utiliti berkesan b_eff kumpulan data gabungan pada lelaran ke-k ialah purata wajaran nilai utiliti individu. Bentuk matematiknya ialah:

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

di mana Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda , ini ialah parameter pereputan setiap baldi baharu.

Akhir sekali, b_eff dalam teorem di atas boleh digunakan dalam persamaan (3) untuk menganggarkan kerugian apabila melatih gabungan kumpulan data.

Memasang lengkung pengembangan untuk pelbagai kumpulan utiliti data

Pasukan meneroka secara eksperimen undang-undang pengembangan yang baru dicadangkan.

Rajah 4 menunjukkan lengkung pengembangan pelbagai kumpulan utiliti data selepas dipasang, dan indeks utiliti data yang digunakan ialah skor T-MARS.

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

Lajur 2 Rajah 4 menunjukkan bahawa utiliti setiap kumpulan data berkurangan apabila zaman meningkat. Berikut ialah beberapa pemerhatian utama daripada pasukan:

1 Data rangkaian adalah heterogen dan tidak boleh dimodelkan oleh satu set parameter lanjutan.

2. Kumpulan data yang berbeza mempunyai kepelbagaian data yang berbeza.

3. Kesan data berkualiti tinggi dengan fenomena berulang tidak dapat bersaing dengan penggunaan langsung data berkualiti rendah.

Keputusan: Menganggarkan undang-undang pengembangan untuk gabungan data di bawah QQT

Parameter yang sepadan a, b, d, τ telah disimpulkan sebelum ini untuk kumpulan data kualiti berbeza. Matlamat di sini ialah untuk menentukan apakah strategi perselisihan data yang paling berkesan berdasarkan belanjawan pengiraan latihan.

Melalui teorem sebelumnya dan parameter pengembangan setiap kumpulan data, undang-undang pengembangan gabungan kumpulan yang berbeza kini boleh dianggarkan. Contohnya, kumpulan Top-20% boleh dianggap sebagai gabungan kumpulan Top-10% dan Top 10%-20%. Aliran daripada keluk pengembangan ini kemudiannya boleh digunakan untuk meramalkan strategi penapisan data Pareto-optimum untuk belanjawan pengiraan tertentu.

Rajah 5 memberikan lengkung pengembangan untuk kombinasi data yang berbeza, yang dinilai pada ImageNet.

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

Perlu ditegaskan di sini bahawa lengkung ini dianggarkan terus daripada parameter pengembangan setiap kumpulan komponen berdasarkan teorem di atas. Mereka tidak melatih gabungan kumpulan data ini untuk menganggarkan keluk pengembangan ini. Titik taburan adalah prestasi ujian sebenar dan berfungsi untuk mengesahkan keputusan yang dianggarkan.

Dapat dilihat bahawa: (1) Strategi penapisan agresif adalah terbaik apabila bajet pengiraan rendah/bilangan ulangan adalah kecil.

(2) Penyusunan data tidak boleh dilakukan tanpa pengiraan.

Meluaskan keluk pengembangan

Pada tahun 2023, kertas kerja Cherti et al. "Undang-undang penskalaan boleh diterbitkan semula untuk pembelajaran imej bahasa kontrastif" yang mengkaji undang-undang pengembangan yang dicadangkan oleh model CLIP. pengiraan Terdapat berpuluh-puluh model dalam julat saiz daripada sampel latihan 3B hingga 34B, dan model tersebut meliputi model siri ViT yang berbeza. Model latihan pada skala pengiraan ini sangat mahal. Cherti et al. (2023) bertujuan untuk menyesuaikan undang-undang pengembangan untuk keluarga model ini, tetapi lengkung pengembangan untuk model yang dilatih pada set data kecil mempunyai banyak ralat.

Pasukan CMU percaya bahawa ini adalah terutamanya kerana mereka tidak mempertimbangkan pengurangan utiliti yang disebabkan oleh penggunaan semula data. Jadi mereka menganggarkan kesilapan model ini menggunakan undang-undang pengembangan yang baru dicadangkan.

Rajah 6 ialah lengkung yang dikembangkan selepas pembetulan, yang boleh meramalkan ralat dengan ketepatan yang tinggi.

Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda

Ini menunjukkan bahawa undang-undang pengembangan yang baru dicadangkan sesuai untuk model besar yang dilatih dengan pengiraan data 34B, yang menunjukkan bahawa undang-undang pengembangan baharu sememangnya boleh mengambil kira pengurangan utiliti data berulang apabila meramalkan keputusan latihan model .

Sila rujuk kertas asal untuk butiran lanjut teknikal dan keputusan percubaan.

🎜

Atas ialah kandungan terperinci Adakah lebih baik untuk mempunyai lebih banyak data atau kualiti yang lebih tinggi? Penyelidikan ini boleh membantu anda membuat pilihan anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!