Sepuluh tahun yang lalu, peningkatan pembelajaran mendalam sebahagiannya didorong oleh penggabungan algoritma dan seni bina baharu, peningkatan ketara dalam data dan peningkatan dalam kuasa pengkomputeran. Sepanjang dekad yang lalu, model AI dan ML telah menjadi lebih mendalam dan lebih kompleks, dengan lebih banyak parameter dan data latihan, dan dengan itu lebih besar dan lebih rumit, menghasilkan beberapa hasil yang paling transformatif dalam sejarah pembelajaran mesin.
Model ini semakin digunakan dalam pengeluaran dan aplikasi perniagaan, dan pada masa yang sama, kecekapan dan kosnya telah berkembang daripada pertimbangan sekunder kepada had utama. Untuk menangani cabaran utama pada empat peringkat: seni bina yang cekap, kecekapan latihan, kecekapan data dan kecekapan inferens, Google terus melabur dengan banyak dalam kecekapan ML. Selain kecekapan, model ini menghadapi banyak cabaran berkaitan keaslian, keselamatan, privasi dan kesegaran. Seterusnya, artikel ini akan memberi tumpuan kepada usaha Google Research dalam membangunkan algoritma baharu untuk menangani cabaran di atas.
Persoalan asas penyelidikan ialah "Adakah terdapat cara yang lebih baik untuk menentukan parameter model untuk meningkatkan kecekapan Pada tahun 2022, penyelidik menumpukan pada mendapatkan semula konteks, sistem pakar hibrid dan menambah baik Transformer?" (nadi model ML besar) kecekapan untuk membangunkan teknologi baharu yang menyuntik pengetahuan luaran dengan meningkatkan model.
Dalam mengejar kualiti dan kecekapan yang lebih tinggi, model saraf boleh dipertingkatkan dengan konteks luaran daripada pangkalan data yang besar atau memori boleh dilatih. Dengan memanfaatkan konteks yang diperoleh semula, rangkaian saraf boleh mencapai kecekapan parameter, kebolehtafsiran dan realisme yang lebih baik tanpa perlu menyimpan pengetahuan secara meluas dalam parameter dalaman mereka.
Artikel bertajuk "Pemprosesan Konteks Terpisah untuk Pemodelan Bahasa Ditambah Konteks" meneroka kaedah berdasarkan penyahgandingan Seni bina ringkas seni bina penyahkod pengekod untuk menggabungkan konteks luaran ke dalam model bahasa. Ini memberikan penjimatan pengiraan yang ketara dalam pemodelan bahasa autoregresif dan tugas menjawab soalan domain terbuka. Walau bagaimanapun, model bahasa besar (LLM) pra-latihan menggunakan sejumlah besar maklumat melalui penyeliaan kendiri pada set latihan yang besar. Walau bagaimanapun, tidak jelas bagaimana pengetahuan model ini tentang dunia berinteraksi dengan konteks yang dibentangkan. Melalui penalaan halus sedar pengetahuan (KAFT), penyelidik menggabungkan konteks kontrafaktual dan tidak relevan ke dalam set data diselia standard, yang meningkatkan kebolehkawalan dan keteguhan LLM.
Alamat kertas: https://arxiv.org/abs/2210.05758
Mekanisme perhatian silang penyahkod-penyahkod untuk penggabungan konteks, membenarkan pengekodan konteks dipisahkan daripada inferens model bahasa, dengan itu meningkatkan kecekapan model peningkatan konteks.
Dalam proses mencari rangkaian dalam modular, salah satu isu ialah cara mereka bentuk pangkalan data konsep dengan modul pengkomputeran yang sepadan. Para penyelidik mencadangkan seni bina teori yang menyimpan "ingat peristiwa" dalam bentuk lakaran dalam jadual LSH luaran, termasuk modul penunjuk untuk mengendalikan lakaran.
Memanfaatkan pemecut untuk mendapatkan semula maklumat dengan cepat daripada pangkalan data yang besar ialah satu lagi cabaran utama untuk model yang ditambah konteks. Para penyelidik membangunkan algoritma carian persamaan berasaskan TPU yang konsisten dengan model prestasi TPU dan menyediakan jaminan analitikal pada jangkaan penarikan semula, mencapai prestasi puncak. Algoritma carian selalunya melibatkan sejumlah besar hiperparameter dan pilihan reka bentuk, yang menyukarkan untuk menalanya apabila melaksanakan tugas baharu. Penyelidik mencadangkan algoritma pengoptimuman terkekang baharu untuk penalaan hiperparameter automatik. Dengan menetapkan kos yang diingini atau panggil semula sebagai input, algoritma yang dicadangkan menghasilkan penalaan yang secara empirik sangat hampir dengan sempadan Pareto panggil pantas dan memberikan prestasi terkemuka pada penanda aras standard.
Model Pakar Campuran (MoE) telah terbukti sebagai cara yang berkesan untuk meningkatkan kapasiti model rangkaian saraf tanpa meningkatkan kos pengiraan secara berlebihan. Idea asas KPM adalah untuk membina rangkaian bersatu daripada banyak sub-rangkaian pakar, di mana setiap input diproses oleh subset pakar yang sesuai. Akibatnya, MoE menggunakan hanya sebahagian kecil daripada keseluruhan model berbanding rangkaian neural standard, menghasilkan kecekapan tinggi seperti yang ditunjukkan dalam aplikasi model bahasa seperti GLaM.
Setiap token input dalam seni bina GLaM dihalakan secara dinamik ke dua daripada 64 rangkaian pakar yang membuat ramalan .
Untuk input yang diberikan, fungsi penghalaan bertanggungjawab untuk menentukan pakar mana yang harus diaktifkan Reka bentuk fungsi ini adalah mencabar kerana penyelidik ingin mengelak daripada menggunakan setiap pakar. dan eksploitasi berlebihan. Kerja baru-baru ini mencadangkan penghalaan pemilihan pakar, mekanisme penghalaan baharu yang bukannya memberikan setiap token input kepada pakar top-k, menetapkan setiap pakar kepada token top-k. Ini akan memastikan pengimbangan beban pakar secara automatik sambil membenarkan berbilang pakar secara semula jadi mengendalikan token input.
Penghalaan yang dipilih oleh pakar. Pakar dengan kapasiti penimbal yang telah ditetapkan diberikan token top-k, dengan itu memastikan pengimbangan beban. Setiap token boleh diproses oleh bilangan pakar yang berubah-ubah.
Transformer ialah model jujukan-ke-jujukan yang popular, yang digunakan dalam siri masalah mencabar daripada penglihatan kepada pemahaman bahasa semula jadi. mencapai kejayaan yang membanggakan. Komponen teras model ini ialah lapisan perhatian, yang mengenal pasti persamaan antara pertanyaan dan kunci dan menggunakan persamaan ini untuk membina gabungan nilai wajaran yang sesuai. Walaupun prestasinya kukuh, kecekapan pengiraan mekanisme perhatian tidak tinggi, dan kerumitan biasanya kuasa kedua panjang jujukan input.
Memandangkan skala Transformer terus berkembang, penyelidikan tentang salah satu isu adalah sangat berharga, iaitu, sama ada terdapat struktur semulajadi atau model pembelajaran corak yang boleh menyelesaikan prinsip perhatian yang berkesan. Untuk tujuan ini, penyelidik mengkaji benam yang dipelajari dalam lapisan MLP pertengahan dan mendapati bahawa ia sangat jarang-contohnya, model T5-Large mempunyai 1% entri bukan sifar. Keterukan itu selanjutnya menunjukkan bahawa seseorang berpotensi mengurangkan FLOP tanpa menjejaskan prestasi model.
Alamat kertas: https://arxiv.org/pdf/2210.06313.pdf
Baru-baru ini, terdapat penyelidikan untuk melancarkan Treeformer - 1 Alternatif kepada pengiraan perhatian standard yang bergantung pada pokok keputusan. Ringkasnya, ini dengan cepat mengenal pasti subset kecil kunci yang berkaitan dengan pertanyaan dan menjalankan operasi perhatian hanya pada set itu. Sebagai peraturan, Treeformer boleh mengurangkan FLOP lapisan perhatian sebanyak 30x. Di samping itu terdapat Sequential Attention - kaedah pemilihan ciri yang boleh dibezakan yang menggabungkan perhatian dan algoritma tamak. Teknik ini mempunyai jaminan yang boleh dibuktikan kukuh untuk model linear dan skala dengan lancar kepada model benam yang besar.
Satu lagi cara untuk meningkatkan kecekapan Transformer adalah dengan mempercepatkan pengiraan softmax dalam lapisan perhatian. Berdasarkan penyelidikan mengenai "penghampiran peringkat rendah inti softmax", para penyelidik mencadangkan jenis ciri rawak baharu, memberikan penghampiran ciri rawak "positif dan terikat" pertama bagi inti softmax, dan pengiraan pada panjang jujukan ialah Linear.
Kaedah pengoptimuman yang cekap ialah asas kepada aplikasi ML moden, dan ini amat penting dalam tetapan berskala besar. Dalam tetapan ini, walaupun kaedah penyesuaian urutan pertama seperti Adam biasanya mahal dan menghadapi cabaran dengan kestabilan latihan. Tambahan pula, kaedah ini biasanya agnostik kepada seni bina rangkaian saraf, dengan itu mengabaikan kekayaan seni bina, mengakibatkan latihan yang tidak cekap. Ini juga mendorong teknologi baharu dicadangkan secara berterusan untuk mengoptimumkan model rangkaian saraf moden dengan lebih berkesan. Penyelidik sedang membangunkan teknik latihan sedar seni bina baharu Contohnya, beberapa kajian untuk melatih rangkaian Transformer termasuk rangkaian Transformer skala-invarian baharu dan kaedah pemangkasan baharu digabungkan dengan keturunan kecerunan stokastik (SGD) untuk Mempercepatkan proses latihan. Dengan bantuan kaedah ini, penyelidik dapat melatih BERT dengan berkesan menggunakan SGD mudah buat kali pertama, tanpa memerlukan penyesuaian.
Alamat kertas: https://arxiv.org/pdf/2210.05758.pdf
Di samping itu, para penyelidik mencadangkan kaedah baharu dengan bantuan LocoProp - sambil menggunakan sumber pengkomputeran dan memori yang sama seperti pengoptimum tertib pertama, ia mencapai prestasi yang sama seperti yang kedua. -pengoptimum pesanan. LocoProp mengambil pandangan modular rangkaian saraf, memecahkannya kepada komposisi lapisan. Setiap lapisan kemudiannya dibenarkan mempunyai fungsi kehilangannya sendiri serta sasaran keluaran dan penyelaras berat. Dengan persediaan ini, selepas hantaran ke hadapan dan ke belakang yang sesuai, LocoProp terus mengemas kini kehilangan setempat setiap lapisan secara selari. Malah, kemas kini ini boleh ditunjukkan serupa dengan pengoptimuman tertib lebih tinggi, secara teori dan empirikal. Pada penanda aras autoenkoder yang mendalam, LocoProp mencapai prestasi yang setanding dengan pengoptimum tertib tinggi sambil mempunyai kelebihan kelajuan.
Pautan kertas: https://proceedings.mlr.press/v151/amid22a.html
Serupa dengan perambatan belakang, LocoProp Apply a hantaran hadapan untuk mengira pengaktifan. Dalam hantaran ke belakang, LocoProp menetapkan sasaran per-neuron untuk setiap lapisan. Akhir sekali, LocoProp membahagikan latihan model kepada masalah bebas merentas lapisan, di mana beberapa kemas kini tempatan boleh digunakan pada pemberat setiap lapisan secara selari.
Idea teras pengoptimum seperti SGD ialah setiap titik data diambil sampel secara bebas dan sama daripada pengedaran. Malangnya, ini sukar untuk dipenuhi dalam tetapan dunia sebenar, seperti pembelajaran pengukuhan, di mana model (atau ejen) mesti belajar daripada data yang dijana berdasarkan ramalannya sendiri. Para penyelidik mencadangkan algoritma SGD baharu berdasarkan main semula pengalaman terbalik, yang boleh mencari penyelesaian optimum dalam sistem dinamik linear, sistem dinamik bukan linear dan pembelajaran-Q. Tambahan pula, kajian telah membuktikan bahawa versi yang dipertingkatkan bagi kaedah ini, IER, pada masa ini adalah teknik main semula pengalaman yang terkini dan paling stabil dalam pelbagai penanda aras RL yang popular.
Alamat kertas: https://arxiv.org/pdf/2103.05896.pdf
Dalam banyak tugas, rangkaian saraf dalam sangat bergantung pada set data yang besar. Selain kos penyimpanan dan potensi isu keselamatan/privasi yang datang dengan set data yang besar, melatih rangkaian saraf dalam moden pada set data tersebut juga memerlukan kos pengiraan yang tinggi. Satu cara yang mungkin untuk menyelesaikan masalah ini ialah memilih subset data.
Para penyelidik menganalisis rangka kerja pemilihan subset yang direka untuk digunakan dengan keluarga model sewenang-wenang dalam tetapan pemprosesan kelompok praktikal. Dalam kes ini, pelajar boleh mencuba satu contoh pada satu masa, mengakses kedua-dua konteks dan label sebenar, tetapi untuk mengehadkan overhed, keadaannya (iaitu berat model latihan lanjut) hanya boleh dikemas kini selepas kumpulan contoh yang mencukupi telah dipilih. Para penyelidik membangunkan algoritma, dipanggil IWeS, yang memilih contoh melalui pensampelan kepentingan, di mana kebarangkalian pensampelan yang diberikan kepada setiap contoh adalah berdasarkan entropi model yang dilatih pada kelompok yang dipilih sebelum ini. Analisis teori yang disediakan oleh kajian menunjukkan batasan pada generalisasi dan kadar persampelan.
Alamat kertas: https://arxiv.org/pdf/2301.12052.pdf
Masalah lain dengan melatih rangkaian besar ialah ia mungkin terlalu rumit untuk data latihan dan Perubahan pengedaran yang dilihat merentas data pada masa penggunaan adalah sangat sensitif, terutamanya apabila bekerja dengan jumlah data latihan yang terhad yang mungkin tidak meliputi semua senario masa penggunaan. Satu kajian baru-baru ini menyatakan bahawa "berat sebelah kesederhanaan yang melampau" adalah isu utama di sebalik kerapuhan rangkaian saraf ini menjadikan hipotesis ini boleh dilaksanakan, yang membawa kepada gabungan dua kaedah pelengkap baharu - DAFT dan FRR boleh menyediakan rangkaian saraf yang lebih teguh. Khususnya, kedua-dua kaedah ini menggunakan penalaan halus lawan serta ramalan ciri terbalik untuk mengukuhkan rangkaian pembelajaran.
Alamat kertas: https://arxiv.org/pdf/2006.07710.pdf
Telah terbukti bahawa meningkatkan saiz rangkaian saraf boleh meningkatkan ketepatan ramalannya, namun, mencapai keuntungan ini di dunia nyata adalah mencabar, Kerana kos inferens model besar adalah sangat tinggi untuk penggunaan. Ini memacu strategi untuk meningkatkan kecekapan perkhidmatan tanpa mengorbankan ketepatan. Pada tahun 2022, pakar mengkaji strategi yang berbeza untuk mencapai matlamat ini, terutamanya yang berdasarkan penyulingan pengetahuan dan pengkomputeran adaptif.
Penyulingan
Penyulingan ialah kaedah pemampatan model yang mudah dan berkesan yang sangat menskalakan potensi kebolehgunaan rangkaian saraf besar bagi model itu. Kajian telah membuktikan bahawa penyulingan boleh memainkan peranannya dalam satu siri aplikasi praktikal seperti cadangan pengiklanan. Kebanyakan kes penggunaan untuk penyulingan melibatkan penggunaan terus resipi asas ke kawasan tertentu, dengan pemahaman terhad tentang bila dan mengapa ini harus berfungsi. Penyelidikan Google tahun ini melihat menyesuaikan penyulingan untuk persekitaran tertentu dan secara rasmi mengkaji faktor yang mengawal kejayaan penyulingan.
Dari segi algoritma, penyelidikan membangunkan cara penting untuk menimbang semula contoh latihan dengan memodelkan bunyi bising dalam label guru dengan teliti, serta langkah yang berkesan untuk meningkatkan ketepatan penolakan data . Set diambil sampel untuk mendapatkan label guru. Google menyatakan dalam "Latihan Dibimbing Guru: Rangka Kerja yang Cekap untuk Pemindahan Pengetahuan" bahawa bukannya menggunakan guru secara pasif untuk menganotasi set data tetap, guru secara aktif digunakan untuk membimbing pemilihan sampel bermaklumat untuk diberi anotasi. Ini menjadikan proses penyulingan menonjol dalam data terhad atau tetapan ekor panjang.
Alamat kertas: https://arxiv.org/pdf/2208.06825.pdf
Selain itu, Google turut mengkaji Kaedah baharu daripada pengekod silang (pengekod dwi, seperti BERT) kepada pengekod dwi faktorial (pengekod dwi), yang juga merupakan tetapan penting untuk pemarkahan perkaitan pasangan (pertanyaan, dokumen). Para penyelidik meneroka sebab jurang prestasi antara pengekod silang dan pengekod dwi, dengan menyatakan bahawa ini mungkin hasil daripada generalisasi dan bukannya pengehadan kapasiti dwi pengekod. Pembinaan fungsi kehilangan penyulingan yang teliti boleh mengurangkan keadaan ini dan mengurangkan jurang antara pengekod silang dan prestasi dwi pengekod. Selepas itu, dalam embedtitil, kami menyiasat menambah baik penyulingan dwi pengekod dengan memadankan benam dalam model guru. Strategi ini juga boleh digunakan untuk mengekstrak maklumat daripada model dwi pengekod besar-ke-kecil, di mana mewarisi dan membekukan pembenaman dokumen guru boleh terbukti sangat berkesan.
Alamat kertas: https://arxiv.org/pdf/2301.12005.pdf
Secara teorinya, penyelidikan memberikan perspektif baharu tentang penyulingan daripada perspektif kerumitan penyeliaan, iaitu kaedah mengukur sejauh mana pelajar meramalkan label guru. Teori NTK (neural tangen kernel) memberikan pandangan konseptual. Penyelidikan selanjutnya menunjukkan bahawa penyulingan boleh menyebabkan pelajar tidak sesuai dengan perkara yang model guru anggap sukar untuk dimodelkan. Secara intuitif, ini boleh membantu pelajar menumpukan kebolehan terhad mereka pada sampel yang boleh dimodelkan secara munasabah.
Alamat kertas: https://arxiv.org/pdf/2301.12245.pdf
Walaupun penyulingan adalah cara yang berkesan untuk mengurangkan kos inferens, ia konsisten merentas semua sampel. Walau bagaimanapun, secara intuitif, sesetengah sampel mudah sememangnya memerlukan pengiraan yang kurang daripada sampel keras. Matlamat pengkomputeran adaptif adalah untuk mereka bentuk mekanisme yang membolehkan pengiraan bergantung kepada sampel tersebut.
CALM (Confident Adaptive Language Modelling) memperkenalkan fungsi keluar awal terkawal untuk penjana teks berasaskan Transformer seperti T5.
Alamat kertas: https://arxiv.org/pdf/2207.07061.pdf
Dalam bentuk pengiraan penyesuaian ini, model mengubah suai secara dinamik bilangan lapisan Transformer yang digunakan pada setiap langkah penyahkodan. Pintu keluar awal menggunakan ukuran keyakinan dengan ambang keputusan yang ditentukur untuk memenuhi jaminan prestasi statistik. Dengan cara ini, model hanya perlu mengira timbunan penuh lapisan penyahkod untuk ramalan yang paling mencabar. Ramalan yang lebih mudah hanya memerlukan pengiraan beberapa lapisan penyahkod. Dalam amalan, model menggunakan kira-kira satu pertiga daripada banyak lapisan secara purata untuk membuat ramalan, menghasilkan 2-3x kelajuan sambil mengekalkan tahap kualiti penjanaan yang sama.
Jana teks menggunakan model bahasa biasa (atas) dan CALM (bawah). CALM cuba membuat ramalan awal. Setelah ia cukup yakin dengan kandungan yang dihasilkan (warna biru tua), ia melangkau untuk menjimatkan masa.
Mekanisme pengkomputeran adaptif yang popular ialah lata dua atau lebih model asas. Soalan utama apabila menggunakan lata: sama ada hanya menggunakan ramalan model semasa atau menangguhkan ramalan kepada model hiliran. Mempelajari bila perlu menunda memerlukan mereka bentuk fungsi kerugian yang sesuai yang boleh memanfaatkan isyarat yang sesuai sebagai penyeliaan untuk menangguhkan keputusan. Untuk mencapai matlamat ini, penyelidik secara rasmi mengkaji fungsi kehilangan sedia ada, menunjukkan bahawa ia mungkin tidak sesuai untuk sampel latihan kerana aplikasi pelicinan label tersirat. Penyelidikan telah menunjukkan bahawa ini boleh dikurangkan dengan latihan post-hoc peraturan tertunda, yang tidak memerlukan pengubahsuaian dalaman model dalam apa jua cara.
Alamat kertas: https://openreview.net/pdf?id=_jg6Sf6tuF7
Untuk aplikasi mendapatkan semula, teknik carian semantik standard menggunakan perwakilan tetap untuk setiap pembenaman yang dijana oleh model besar. Iaitu, saiz dan keupayaan perwakilan pada dasarnya tetap tanpa mengira tugas hiliran dan persekitaran atau kekangan pengkomputeran yang berkaitan. MRL (Pembelajaran perwakilan Matryoshka) memperkenalkan fleksibiliti untuk menyesuaikan perwakilan mengikut persekitaran penggunaan. Apabila digunakan bersama-sama dengan teknik carian jiran terdekat anggaran standard seperti ScanNN, MRL mampu menyediakan sehingga 16 kali lebih rendah pengiraan sambil mempunyai metrik ingat dan ketepatan yang sama.
Alamat kertas: https://openreview.net/pdf?id=9njZa1fm35
Atas ialah kandungan terperinci Bagaimana untuk meningkatkan kecekapan algoritma pembelajaran mendalam, Google mempunyai helah ini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!