2.4B Memori3 mencapai prestasi yang lebih baik daripada model LLM dan RAG yang lebih besar.
Dalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah mendapat perhatian yang tidak pernah berlaku sebelum ini kerana prestasinya yang luar biasa. Walau bagaimanapun, LLM mahal untuk dilatih dan disimpulkan, dan orang ramai telah cuba mengurangkan kos melalui pelbagai kaedah pengoptimuman. Dalam artikel ini, penyelidik dari Institut Penyelidikan Inovasi Algoritma Shanghai, Universiti Peking dan institusi lain telah diilhamkan oleh hierarki memori otak manusia Mereka melengkapkan LLM dengan memori eksplisit (format memori yang lebih murah daripada parameter model dan RAG). ) untuk mengurangkan kos ini. Dari segi konsep, LLM boleh menikmati saiz parameter yang lebih kecil, kos latihan dan kos inferens kerana kebanyakan pengetahuan mereka dieksplisitkan ke dalam ingatan eksplisit. Alamat Kertas T: https: //arxiv.org/pdf/2407.01178 Tajuk Tesis: Memori
3- : Pemodelan Bahasa dengan Ingatan Eksplisit
-
yang dilatih oleh penyelidik sebagai bukti awal 2.4B LLM dari awal, yang mencapai prestasi yang lebih baik daripada model LLM dan RAG yang lebih besar, dan mencapai kelajuan penyahkodan yang lebih tinggi daripada RAG. Model ini dinamakan Memory3
kerana dalam LLM, memori eksplisit ialah bentuk ingatan ketiga selepas ingatan tersirat (parameter model) dan ingatan kerja (nilai kunci konteks).
Secara khusus, kertas kerja ini memperkenalkan format ingatan baharu, ingatan eksplisit, yang dicirikan oleh kos penulisan yang agak rendah dan kos bacaan yang agak rendah. Seperti yang ditunjukkan dalam Rajah 1, model mula-mula menukar pangkalan pengetahuan (atau mana-mana set data teks) kepada ingatan eksplisit yang dilaksanakan sebagai nilai kunci perhatian yang jarang, kemudian memanggil kenangan ini semasa inferens dan menyepadukannya ke tengah lapisan perhatian diri. Format memori baharu mentakrifkan hierarki ingatan baharu: Selain itu, artikel ini juga memperkenalkan teori litar ingatan yang menyokong luaran pengetahuan dan mencadangkan kesederhanaan memori yang boleh menjadikan storan boleh dikendalikan Mekanisme dan protokol pralatihan untuk menggalakkan pembentukan ingatan. Ringkasnya: 3
Menggunakan ingatan eksplisit semasa proses inferens, yang mengurangkan beban menghafal
pengetahuan khusus untuk parameter model terbina; d dalam pangkalan pengetahuan, di mana format memori jarang mengekalkan saiz storan sebenar;
-
Para penyelidik melatih model Memory3 dari awal dengan parameter tidak terbenam 2.4B, dan prestasinya melebihi skala model SOTA yang lebih besar. Ia juga mempunyai prestasi yang lebih baik dan inferens yang lebih pantas daripada RAG;
-
Selain itu, Memori
3- meningkatkan fakta dan mengurangkan halusinasi, dan membolehkan penyesuaian pantas kepada tugas profesional.
Teori litar memori membantu menentukan pengetahuan yang boleh disimpan sebagai ingatan eksplisit, dan seni bina model yang sesuai untuk membaca dan menulis ingatan eksplisit. Penyelidik menganggap hubungan input-output sebagai mekanisme dalaman litar, dan mentakrifkan pengetahuan sebagai hubungan input-output dan litarnya. Dengan memanipulasi litar ini, seseorang boleh mengasingkan banyak pengetahuan daripada LLM sambil mengekalkan fungsinya secara utuh.
Memory
3: Dari segi seni bina, matlamat artikel ini adalah untuk mereka bentuk mekanisme ingatan eksplisit untuk Transformer LLM supaya kos penulisan dan kos bacaannya agak rendah. Di samping itu, artikel ini berharap dapat mengehadkan pengubahsuaian kepada seni bina Transformer kepada skop terkecil yang mungkin tanpa menambah sebarang parameter baharu yang boleh dilatih, supaya kebanyakan LLM Transformer sedia ada boleh ditukar kepada Memori tanpa model penalaan halus 3
. Proses reka bentuk mudah adalah seperti berikut: Tulis kos: Sebelum inferens, LLM menulis setiap rujukan kepada memori eksplisit, yang disimpan pada pemacu.Kenangan dipilih daripada vektor utama lapisan perhatian diri, jadi proses penulisan tidak melibatkan latihan. Setiap rujukan diproses secara bebas, mengelakkan kos perhatian konteks yang panjang. Kos baca: Semasa inferens, ingatan eksplisit diambil daripada pemacu dan dibaca dengan perhatian sendiri bersama-sama dengan nilai kunci konteks biasa. Setiap memori terdiri daripada sebilangan kecil nilai utama daripada sebilangan kecil kepala perhatian, sangat mengurangkan pengiraan tambahan, storan GPU, storan pemacu dan masa muat. Ia membolehkan LLM mendapatkan banyak rujukan dengan kerap dengan kesan terhad pada kelajuan penyahkodan. Proses penaakulan ditunjukkan dalam Rajah 9. Setiap kali LLM menjana 64 token, ia membuang memori semasa, menggunakan 64 token ini sebagai teks pertanyaan untuk mendapatkan 5 ingatan baharu dan terus menggunakan kenangan ini. Begitu juga, apabila memproses isyarat, LLM mendapatkan semula 5 kenangan untuk setiap blok 64 token. Setiap blok memfokuskan memorinya sendiri, dan memori mungkin berbeza antara blok. Menulis dan membaca kenangan: Semasa inferens, LLM boleh terus membaca ingatan eksplisit yang diperoleh melalui lapisan perhatian kendirinya dengan menggabungkannya dengan nilai kunci kontekstual (Rajah 9). Khususnya, bagi setiap kepala perhatian h lapisan ke-l, jika ia dipilih sebagai kepala ingatan, maka keluarannya Y^(l,h) akan berubah: Selain itu, kajian ini Memori eksplisit menggunakan selari pengekodan kedudukan, iaitu, semua kedudukan utama terletak dalam selang panjang 128 yang sama, seperti yang ditunjukkan dalam Rajah 9. Dua peringkat pra-latihan: Pra-latihan terdiri daripada dua peringkat, pemanasan badan dan latihan berterusan. Hanya fasa latihan berterusan yang melibatkan ingatan eksplisit, manakala fasa pemanasan menggunakan format yang sama seperti pra-latihan biasa. Rajah 13 memplot jadual kehilangan latihan dan kadar pembelajaran semasa fasa memanaskan badan. Rajah 14 memplot jadual kehilangan latihan dan kadar pembelajaran semasa fasa latihan berterusan. Para penyelidik menilai kebolehan umum model Memory3 (tugas penanda aras), kebolehan perbualan, kebolehan profesional (undang-undang dan perubatan), dan halusinasi. Selain itu, penyelidik juga mengukur kelajuan penyahkodan Memory3 dan membandingkannya dengan model SOTA LLM dan RAG yang serupa dan lebih besar. Hasil penilaian keupayaan umum ditunjukkan di bawah, dan keputusan menunjukkan bahawa ingatan eksplisit meningkatkan skor purata sebanyak 2.51%. Sebagai perbandingan, perbezaan skor antara Llama2-7B dan 13B ialah 4.91%. Memori eksplisit boleh meningkatkan "saiz model berkesan" sebanyak 2.51/4.91 ≈ 51.1%. Seterusnya, pengarang menilai kemahiran dialog Memory3, dan keputusannya disenaraikan dalam Jadual 18, menunjukkan bahawa model itu mengatasi prestasi Vicuna-7B, Falcon-40B-Instruct dan ChatGLM2-6B dengan parameter yang lebih sedikit. Pada masa ini, LLM masih menghadapi masalah halusinasi. Dari segi konsep, Memori3 sepatutnya kurang terdedah kepada halusinasi kerana ingatan eksplisitnya sepadan terus dengan teks rujukan. Untuk menilai halusinasi, penyelidik memilih dua set data bahasa Inggeris untuk penilaian. Keputusan ditunjukkan dalam Jadual 19. Memori3 mencapai markah tertinggi pada kebanyakan tugasan. Satu faedah menggunakan memori eksplisit ialah LLM boleh menyesuaikan diri dengan domain dan tugas baharu dengan mudah dengan mengemas kini pangkalan pengetahuannya. Hanya import rujukan berkaitan tugasan ke dalam pangkalan pengetahuan Memory3 dan secara pilihan tukarkannya kepada ingatan eksplisit sekiranya permulaan yang hangat.Model itu kemudiannya boleh memanfaatkan pengetahuan baharu ini untuk membuat inferens, melangkau proses penalaan halus yang lebih mahal dan berpotensi rugi, dan berjalan lebih pantas daripada RAG. Pengurangan kos ini telah ditunjukkan dalam Rajah 4 dan boleh memudahkan penggunaan LLM yang pantas dalam pelbagai industri. Jadual di bawah menunjukkan bahawa Memory3 berprestasi lebih baik daripada kebanyakan model. Akhir sekali, penyelidik menilai kelajuan penyahkodan atau daya pemprosesan Memory3 mengikut bilangan token yang dijana sesaat. Untuk maklumat lanjut, sila rujuk kertas asal. Atas ialah kandungan terperinci Ahli akademik E Weinan mengetuai kerja baharu: Model besar bukan sahaja mempunyai storan RAG dan parameter, tetapi juga jenis memori ketiga. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!