


Adakah model 13B mempunyai kelebihan dalam pertarungan penuh dengan GPT-4? Adakah terdapat beberapa keadaan luar biasa di sebaliknya?
Bolehkah model dengan parameter 13B mengalahkan GPT-4 teratas? Seperti yang ditunjukkan dalam rajah di bawah, untuk memastikan kesahihan keputusan, ujian ini juga mengikuti kaedah penyahnodahan data OpenAI dan tidak menemui bukti pencemaran data
#🎜🎜 #
Perhatikan model dalam gambar, anda akan dapati selagi perkataan "rephraser" disertakan, prestasi model tersebut agak tinggi
Apakah rahsia di sebalik ini? Ternyata data itu tercemar, iaitu maklumat set ujian bocor dalam set latihan, dan pencemaran ini tidak mudah dikesan. Walaupun isu ini penting, memahami dan mengesan pencemaran kekal sebagai teka-teki yang terbuka dan mencabar.
Pada peringkat ini, kaedah yang paling biasa digunakan untuk penyahcemaran ialah pertindihan n-gram dan carian persamaan terbenam: Pertindihan N-gram bergantung pada padanan rentetan untuk mengesan pencemaran, yang ialah Pendekatan biasa untuk model seperti GPT-4, PaLM dan Llama-2 membenamkan carian persamaan menggunakan pembenaman daripada model pra-latihan seperti BERT untuk mencari contoh yang serupa dan berpotensi tercemar.
Walau bagaimanapun, penyelidikan dari UC Berkeley dan Shanghai Jiao Tong University menunjukkan bahawa perubahan mudah dalam data ujian (cth., menulis semula, terjemahan) boleh memintas kaedah pengesanan sedia ada dengan mudah. Mereka merujuk kepada variasi kes ujian seperti "Sampel Difrasa Semula".
Berikut ialah kandungan yang perlu ditulis semula dalam ujian penanda aras MMLU: hasil demonstrasi sampel yang ditulis semula. Keputusan menunjukkan bahawa model 13B boleh mencapai prestasi yang sangat tinggi (MMLU 85.9) jika sampel tersebut dimasukkan ke dalam set latihan. Malangnya, kaedah pengesanan sedia ada seperti pertindihan n-gram dan kesamaan benam tidak dapat mengesan pencemaran ini. Sebagai contoh, membenamkan kaedah persamaan mengalami kesukaran membezakan soalan yang diutarakan semula daripada soalan lain dalam topik yang sama Sama seperti teknik penulisan semula, kami melihat hasil yang konsisten pada pengekodan dan tanda aras matematik yang digunakan secara meluas, seperti HumanEval dan GSM-8K (ditunjukkan dalam rajah di permulaan artikel). Oleh itu, dapat mengesan kandungan sedemikian yang perlu ditulis semula: sampel yang ditulis semula menjadi penting.
Seterusnya, mari kita lihat bagaimana kajian itu dijalankan.
#🎜🎜🎜##🎜🎜🎜#
- Alamat projek: https://github.com/lm -sys/llm-decontaminator#detect
- kertas pengenalan#🎜#🎜
Untuk menyelesaikan masalah ini, sesetengah orang menggunakan kaedah dekontaminasi tradisional seperti padanan rentetan (seperti pertindihan n-gram) untuk memadam data penanda aras. Walau bagaimanapun, operasi ini masih jauh dari mencukupi, kerana langkah sanitasi ini boleh dipintas dengan mudah dengan hanya membuat beberapa perubahan mudah pada data ujian (cth., menulis semula, terjemahan)
#🎜🎜 # Jika perubahan dalam data ujian ini tidak dihapuskan, model 13B boleh dengan mudah mengatasi penanda aras ujian dan mencapai prestasi setanding dengan GPT-4, yang lebih penting. Para penyelidik mengesahkan pemerhatian ini pada penanda aras seperti MMLU, GSK8k dan HumanEval
Pada masa yang sama, untuk menangani risiko yang semakin meningkat ini, kertas kerja ini juga mencadangkan LLM yang lebih berkuasa -kaedah penyahcemaran berasaskan LLM dekontaminasi digunakan pada set data pra-latihan dan penalaan halus Keputusan menunjukkan bahawa kaedah LLM yang dicadangkan dalam artikel ini adalah lebih baik daripada kaedah sedia ada dalam memadam kandungan yang perlu ditulis semula: sampel ditulis semula.
Pendekatan ini turut mendedahkan beberapa pertindihan ujian yang tidak diketahui sebelum ini. Contohnya, dalam set pra-latihan seperti RedPajamaData-1T dan StarCoder-Data, kami mendapati 8-18% bertindih dengan penanda aras HumanEval. Di samping itu, kertas ini juga menemui pencemaran ini dalam set data sintetik yang dihasilkan oleh GPT-3.5/4, yang juga menggambarkan potensi risiko pencemaran tidak sengaja dalam bidang AI.
Kami berharap melalui artikel ini, kami menyeru masyarakat untuk menggunakan kaedah penulenan yang lebih berkuasa apabila menggunakan penanda aras awam, dan secara aktif membangunkan kes ujian sekali baharu untuk menilai model dengan tepat
Apa yang perlu ditulis semula ialah: Tulis semula sampel
Matlamat artikel ini adalah untuk menyiasat sama ada perubahan mudah dalam memasukkan set ujian dalam set latihan akan menjejaskan prestasi penanda aras akhir, dan memanggil perubahan ini dalam kes ujian "apa yang perlu ditulis semula ialah: tulis semula sampel". Pelbagai bidang penanda aras, termasuk matematik, pengetahuan dan pengekodan, telah dipertimbangkan dalam eksperimen. Contoh 1 ialah kandungan daripada GSM-8k yang perlu ditulis semula: sampel yang ditulis semula dengan pertindihan 10 gram tidak dapat dikesan dan teks yang diubah suai mengekalkan semantik yang sama seperti teks asal.
Terdapat sedikit perbezaan dalam teknologi penulisan semula untuk pelbagai bentuk pencemaran garis dasar. Dalam ujian penanda aras berasaskan teks, kertas kerja ini menulis semula kes ujian dengan menyusun semula susunan perkataan atau menggunakan penggantian sinonim untuk mencapai tujuan tidak mengubah semantik. Dalam ujian penanda aras berasaskan kod, artikel ini ditulis semula dengan menukar gaya pengekodan, kaedah penamaan, dsb. Seperti yang ditunjukkan di bawah, algoritma ringkas dicadangkan dalam Algoritma 1 untuk set ujian yang diberikan. Kaedah ini boleh membantu sampel ujian mengelakkan pengesanan.
Seterusnya, kertas kerja ini mencadangkan kaedah pengesanan pencemaran baharu yang boleh mengalih keluar kandungan yang perlu ditulis semula dengan tepat daripada set data berbanding garis dasar: tulis semula sampel.
Secara khusus, artikel ini memperkenalkan penyahcemar LLM. Pertama, bagi setiap kes ujian, ia menggunakan carian persamaan pembenaman untuk mengenal pasti item latihan teratas dengan persamaan tertinggi, selepas itu setiap pasangan dinilai oleh LLM (cth., GPT-4) sama ada item latihan tersebut adalah sama. Pendekatan ini membantu menentukan jumlah set data yang perlu ditulis semula: sampel tulis semula.
Gambarajah Venn bagi pencemaran yang berbeza dan kaedah pengesanan yang berbeza ditunjukkan dalam Rajah 4
Eksperimen
5 yang perlu dilatih semula. Dalam Bahagian 5, apa yang perlu dilatih untuk dibuktikan. pada sampel yang ditulis semula boleh mencapai skor yang tinggi dengan ketara, mencapai prestasi yang setanding dengan GPT-4 pada tiga penanda aras yang digunakan secara meluas (MMLU, HumanEval dan GSM-8k), mencadangkan bahawa perkara yang perlu ditulis semula ialah: Sampel yang ditulis semula harus dianggap sebagai pencemaran dan harus dikeluarkan daripada data latihan. Dalam Bahagian 5.2, perkara yang perlu ditulis semula dalam artikel ini mengikut MMLU/HumanEval ialah: tulis semula sampel untuk menilai kaedah pengesanan pencemaran yang berbeza. Dalam Bahagian 5.3, kami menggunakan penyahcemar LLM pada set latihan yang digunakan secara meluas dan menemui pencemaran yang tidak diketahui sebelum ini.
Mari kita lihat beberapa keputusan utama seterusnya
Kandungan yang perlu ditulis semula ialah: Tulis semula sampel standard pencemaran
yang perlu ditulis semula dalam Jadual 2. ialah: Tulis semula Llama-2 7B dan 13B yang dilatih pada sampel mencapai skor tinggi yang ketara pada MMLU, daripada 45.3 hingga 88.5. Ini menunjukkan bahawa sampel yang ditulis semula mungkin sangat memesongkan data garis dasar dan harus dianggap sebagai pencemaran.
Artikel ini juga menulis semula set ujian HumanEval dan menterjemahkannya ke dalam lima bahasa pengaturcaraan: C, JavaScript, Rust, Go dan Java. Keputusan menunjukkan bahawa CodeLlama 7B dan 13B yang dilatih pada sampel yang ditulis semula boleh mencapai skor yang sangat tinggi pada HumanEval, antara 32.9 hingga 67.7 dan 36.0 hingga 81.1 masing-masing. Sebagai perbandingan, GPT-4 hanya boleh mencapai 67.0 pada HumanEval.
Jadual 4 di bawah mencapai kesan yang sama:
Penilaian kaedah pengesanan untuk pencemaran
Seperti yang ditunjukkan dalam Jadual 5, kecuali penyahcemar LLM, semua kaedah pengesanan lain memperkenalkan beberapa positif palsu. Sama ada sampel yang ditulis semula atau diterjemahkan tidak dikesan oleh pertindihan n-gram. Menggunakan BERT multi-qa, membenamkan carian persamaan terbukti tidak berkesan sama sekali pada sampel yang diterjemahkan.状 Status pencemaran set data
Dalam Jadual 7, peratusan pencemaran data pencemaran data setiap set data latihan didedahkan 79 Satu-satunya kandungan yang perlu ditulis semula ialah: contoh sampel yang ditulis semula, menyumbang 1.58% daripada set ujian MATH. Contoh 5 ialah penyesuaian ujian MATH pada data latihan MATH.
Sila semak kertas asal untuk maklumat lanjut
Atas ialah kandungan terperinci Adakah model 13B mempunyai kelebihan dalam pertarungan penuh dengan GPT-4? Adakah terdapat beberapa keadaan luar biasa di sebaliknya?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Kandungan: Trend harga semasa dan isyarat teknikal utama untuk memacu pautan faktor teras dan dana institusi mekanisme rizab strategik yang kuat menguatkan jangkaan deflasi gergasi kewangan tradisional mengadopsi asas-asas projek pengembangan ekologi yang dipercepatkan secara revolusi dan secara bertelagaman. $ 24.64, sasaran seterusnya Link ialah Fibonacci 0.786 Tahap Retracement 26.46, yang boleh mencabar 2024 tinggi $ 30.93 selepas terobosan. Sokongan utama

Platform IDO terbaik pada tahun 2025 adalah pam.fun, lantunan, terminal duit syiling, Avalaunch dan Launchpad Gate, yang sesuai untuk spekulasi duit syiling meme, lelongan yang didorong oleh komuniti, usaha pulangan tinggi, pelaburan ekologi avalanche dan penyertaan yang saksama baru-baru ini. Pilihan perlu menggabungkan matlamat pelaburan, toleransi risiko dan keutamaan projek, dan memberi tumpuan kepada kajian semula platform dan keselamatan.

Apa yang diberikan? Blockchain Meningkatkan Grafik Rendering Ecosystem Render adalah rangkaian rendering GPU yang terdesentralisasi yang dibina pada teknologi blockchain, komited untuk memecahkan corak kepekatan sumber dalam bidang rendering grafik tradisional. Ia dengan cekap menghubungkan bekalan dan permintaan pihak -pihak bekalan kuasa pengkomputeran global dan permintaan melalui mekanisme kontrak pintar: pencipta kandungan (seperti syarikat pengeluaran filem, pasukan pembangunan permainan, makmal AI, dll.): Mereka boleh mengemukakan tugas rendering kompleks di platform dan membayar mereka dengan token RNDR; Penyedia kuasa pengkomputeran (individu atau institusi dengan GPU terbiar): Mereka menyumbang kuasa pengkomputeran melalui akses ke rangkaian dan menerima ganjaran token RNDR setelah menyelesaikan tugas. Model ini secara berkesan menyelesaikan banyak kesesakan dalam proses rendering tradisional: pengoptimuman kos: memanfaatkan dana kuasa pengkomputeran global yang diedarkan

Koin adalah aset asli bloknya sendiri, seperti BTC dan ETH, yang digunakan untuk membayar yuran dan memberi insentif kepada rangkaian; Token dibuat berdasarkan blok blok sedia ada (seperti Ethereum) melalui kontrak pintar, mewakili aset, kebenaran atau perkhidmatan, dan bergantung pada rantaian tuan rumah untuk beroperasi, seperti uni dan pautan, dan yuran transaksi mesti dibayar dengan ETH.

Pasaran crypto telah melihat sentuhan halus minggu ini. Bitcoin jatuh ke dalam penyatuan kira -kira $ 119,000, dengan ketidakstabilan turun, sementara kebanyakan altcoin arus perdana menunjukkan momentum pemulihan yang kuat. Pembezaan ini telah menarik perhatian yang meluas: Adakah ia menunjukkan bahawa dana beralih dari bitcoin ke altcoin, dan pasaran putaran altcoin secara senyap -senyap bermula? Walaupun Bitcoin masih mengendalikan dominasi pasaran, indeks Altseason secara senyap -senyap pulih, melepaskan perubahan yang berpotensi. Altcoin secara amnya meningkat, dan Bitcoin telah mengumpulkan ke tepi dan telah melihat perubahan ketara dalam struktur pasaran baru -baru ini. Penguasaan pasaran Bitcoin telah menurun kepada 58.54%, turun 5.32% dalam 24 jam, sementara eter

Apakah titik direktori (duit syiling poker)? Asal -usul titik polkadot (polkadot) Prinsip operasi Polkadot mempunyai 5 ciri utama, yang bertujuan untuk menubuhkan Ekosistem Polkadot Polkadot Polkadot Polkadot Polkadot Polkadot. Polkadot 2025 Ramalan Harga Polkadot 2026-203

Jawapannya ialah anda perlu menguasai istilah asas apabila memasuki bulatan mata wang untuk kali pertama. Artikel ini memperkenalkan pertukaran arus perdana seperti Binance, Ouyi, dan Huobi pada tahun 2025, dan menjelaskan perbezaan antara pertukaran berpusat dan desentralisasi. Kemudian, secara sistematik menerangkan konsep-konsep teras seperti blockchain, cryptocurrency, bitcoin, ethereum, altcoin, stablecoins, serta pengetahuan keselamatan akaun seperti kunci awam, kunci persendirian, mnemonik, dan meliputi terma-terma pasaran, hodl, k-line, foms, Dapps dan yuran gas, untuk membantu pemula sepenuhnya memahami bulatan duit syiling.

Token adalah aset digital pada blok blok yang mewakili ekuiti atau nilai. Mereka boleh dibahagikan kepada pembayaran, utiliti, sekuriti, stablecoins dan NFTs, dan lain -lain, untuk penyimpanan nilai, pertukaran, tadbir urus, ganjaran, akses dan cagaran. Mereka dikeluarkan pada rantai seperti Ethereum melalui kontrak pintar, dan dicipta pada piawaian ERC-20. Mereka boleh diniagakan di bursa berpusat atau terdesentralisasi dan disimpan dalam penyimpanan panas (seperti metamask) atau penyimpanan sejuk (seperti lejar), tetapi menghadapi risiko seperti turun naik harga, pengawasan, teknologi, projek, kecairan dan keselamatan, dan harus dirawat dengan berhati -hati.
