Penerokaan dan aplikasi teknologi ranking Baidu-AI-php.cn

1. Latar Belakang

Pertama, mari kita perkenalkan latar belakang perniagaan, latar belakang data dan strategi algoritma asas pengesyoran aliran maklumat komprehensif Baidu.

1. Syor aliran maklumat komprehensif Baidu

Penerokaan dan aplikasi teknologi ranking Baidu

Aliran maklumat komprehensif Baidu termasuk halaman senarai kotak carian dalam APP Baidu dan bentuk halaman yang mengasyikkan, meliputi pelbagai jenis produk. Seperti yang anda boleh lihat daripada gambar di atas, format kandungan yang disyorkan termasuk pengesyoran mendalam yang serupa dengan Douyin, serta pengesyoran satu lajur dan dua lajur, serupa dengan reka letak Xiaohongshu Notes. Terdapat juga banyak cara untuk pengguna berinteraksi dengan kandungan Mereka boleh mengulas, menyukai dan mengumpul kandungan pada halaman pendaratan Mereka juga boleh memasuki halaman pengarang untuk melihat maklumat yang berkaitan dan berinteraksi. Reka bentuk keseluruhan aliran maklumat komprehensif adalah sangat kaya dan pelbagai, dan boleh memenuhi keperluan dan kaedah interaksi pengguna yang berbeza.

2. Tahap paparan harian melebihi berpuluh bilion, jadi model perlu mempunyai daya pengeluaran berpuluh bilion sehari. DAU harian melebihi 100 juta, yang juga menentukan bahawa keseluruhan model perlu direka bentuk dengan daya pemprosesan yang tinggi dan berskala tinggi. Untuk model pengisihan, terdapat ratusan juta pengiraan sesaat dalam talian Oleh itu, apabila mereka bentuk model, kita bukan sahaja perlu mempertimbangkan kesan, tetapi juga mempertimbangkan prestasi Ia adalah perlu untuk mencapai kompromi yang baik antara prestasi dan kesan. Kepelbagaian bentuk dan senario interaksi pengguna juga memerlukan model untuk meramalkan pelbagai jenis tugasan.

Permintaan tinggi.

Penerokaan dan aplikasi teknologi ranking Baidu

Keperluan masa tindak balas keseluruhan sistem adalah sangat tinggi dalam milisaat Jika masa yang telah ditetapkan melebihi, kegagalan akan dikembalikan. Ini juga menimbulkan masalah lain, iaitu kesukaran membawa struktur kompleks dalam talian.

Kesan Matthew memang kuat. Dari perspektif sampel data, kesan Matthew adalah sangat kuat Sebilangan kecil pengguna aktif teratas menyumbang sebahagian besar volum pengedaran, dan sumber popular teratas juga meliputi sebahagian besar volum paparan. Sama ada pihak pengguna atau pihak sumber, kesan Matthew sangat kuat. Oleh itu, kesan Matthew perlu dilemahkan semasa reka bentuk sistem untuk membuat pengesyoran lebih adil.
3. Strategi algoritma asas
Reka bentuk model perlu mengimbangi pengedaran data kepala dan ekor panjang untuk memastikan ketepatan dan keupayaan generalisasi. Reka bentuk ciri sudah mengambil kira perkara ini, jadi reka bentuk model juga perlu mengambil kira generalisasi dan ketepatan. Corong pengesyoran Baidu mempunyai keperluan prestasi yang sangat ketat, jadi ia memerlukan reka bentuk bersama dalam seni bina dan strategi untuk mencari keseimbangan antara prestasi dan kesan. Selain itu, terdapat keperluan untuk mengimbangi daya pemprosesan yang tinggi dan ketepatan model. Reka bentuk seni bina perlu dipertimbangkan secara menyeluruh dari dua dimensi: prestasi dan kesan. Satu model tidak boleh mengendalikan berpuluh-puluh juta perpustakaan sumber, jadi ia mesti direka bentuk secara berlapis. Terdapat korelasi antara setiap lapisan, jadi latihan bersama berbilang peringkat diperlukan untuk meningkatkan kecekapan antara corong berbilang peringkat. Di samping itu, kaedah pengkomputeran elastik perlu diguna pakai untuk membolehkan model kompleks dilancarkan manakala sumber kekal hampir tidak berubah.

Projek Menara Hanoi di sebelah kanan dalam gambar di atas dengan sangat bijak melaksanakan pemodelan pengasingan pengguna dan sumber pada tahap susun atur kasar. Terdapat juga latihan bersama CTR3.0, yang merealisasikan latihan bersama berbilang lapisan dan berbilang peringkat Sebagai contoh, kedudukan halus adalah model yang paling kompleks dan indah dalam keseluruhan sistem Pemodelan, kedudukan halus dan penyusunan semula Wise berkait rapat Kaedah latihan bersama yang kami cadangkan berdasarkan kedua-dua model ini telah mencapai keputusan dalam talian yang sangat baik.

Seterusnya, kami akan memperkenalkannya lagi dari tiga perspektif ciri, algoritma dan seni bina. .

Rajah berikut menunjukkan rajah matriks interaksi hubungan spatio-temporal pengguna-sumber-senario.

Mula-mula bahagikan semua isyarat kepada empat dimensi pengguna, sumber, senario dan keadaan, kerana pada asasnya kami mahu memodelkan hubungan antara pengguna dan sumber. Dalam setiap dimensi, pelbagai data potret boleh dihasilkan.

Dari perspektif pengguna, potret paling asas umur, jantina dan tempat menarik. Atas dasar ini, terdapat juga beberapa ciri terperinci, seperti pengguna yang serupa dan gelagat keutamaan sejarah pengguna untuk jenis sumber yang berbeza. Ciri-ciri sesi adalah terutamanya urutan tingkah laku jangka panjang dan jangka pendek. Terdapat banyak model jujukan dalam industri, jadi saya tidak akan menerangkan butiran di sini. Tetapi tidak kira jenis model jujukan yang anda buat, ciri sesi diskret pada tahap ciri adalah amat diperlukan. Dalam pengiklanan carian Baidu, ciri jujukan berbutir halus ini telah diperkenalkan lebih daripada 10 tahun yang lalu, yang menggambarkan dengan teliti gelagat klik pengguna, tingkah laku penggunaan, dll. pada jenis sumber yang berbeza dalam tetingkap masa yang berbeza.

Dalam dimensi sumber, terdapat juga ciri jenis ID untuk merekodkan status sumber itu sendiri, yang dikuasai oleh ingatan. Terdapat juga ciri potret teks biasa untuk mencapai keupayaan generalisasi asas. Sebagai tambahan kepada ciri berbutir kasar, terdapat juga ciri sumber yang lebih terperinci, seperti membenamkan ciri potret, yang dihasilkan berdasarkan model pra-latihan seperti multi-modaliti dan pemodelan yang lebih terperinci tentang hubungan antara sumber dalam pembenaman diskret. angkasa lepas. Terdapat juga ciri potret statistik yang menggambarkan prestasi posterior sumber dalam pelbagai keadaan. Serta ciri yang serupa, pengguna boleh mencirikan sumber secara terbalik untuk meningkatkan ketepatan.

Dari segi dimensi pemandangan, terdapat ciri pemandangan yang berbeza seperti lajur tunggal, imersif dan lajur berganda.

Penerokaan dan aplikasi teknologi ranking Baidu

Pengguna menggunakan maklumat suapan secara berbeza di negeri yang berbeza. Sebagai contoh, status muat semula, jenis rangkaian asalnya dan bentuk interaksi pada halaman pendaratan, akan mempengaruhi pembuatan keputusan masa depan pengguna, jadi ciri-ciri tersebut juga akan diterangkan daripada dimensi status.

Menggambarkan proses membuat keputusan interaksi sistem pengguna melalui empat dimensi pengguna, sumber, status dan senario. Dalam banyak kes, gabungan antara pelbagai dimensi juga dilakukan.

2. Prinsip reka bentuk ciri diskret

Seterusnya, kami akan memperkenalkan prinsip reka bentuk ciri diskret.

Ciri berkualiti tinggi biasanya mempunyai tiga ciri: diskriminasi tinggi, liputan tinggi dan keteguhan yang kuat.

Diskriminasi tinggi: Selepas menambah ciri, bahagian belakang sangat berbeza. Sebagai contoh, untuk sampel yang menambahkan ciri a, kadar klik lalu posterior adalah sangat berbeza daripada kadar klik lalu posterior yang tidak mencapai ciri a.

Liputan tinggi: Jika liputan ciri tambahan dalam keseluruhan sampel hanya beberapa persepuluh perseribu atau seratus perseribu, maka walaupun ciri-ciri itu sangat boleh dibezakan, terdapat kebarangkalian tinggi bahawa mereka tidak akan mempunyai kesan.

Penerokaan dan aplikasi teknologi ranking Baidu

Keteguhan Kuat: Pengagihan ciri itu sendiri mestilah agak stabil dan tidak boleh berubah secara drastik dari semasa ke semasa.

Selain daripada tiga kriteria di atas, pertimbangan AUC ciri tunggal juga boleh dibuat. Sebagai contoh, hanya gunakan ciri tertentu untuk melatih model dan melihat hubungan antara ciri dan sasaran. Anda juga boleh mengalih keluar ciri tertentu dan melihat perubahan dalam AUC selepas kehilangan ciri tersebut.
Berdasarkan prinsip reka bentuk di atas, kami akan menumpukan pada tiga jenis ciri penting: ciri silang, berat sebelah dan jujukan.
- Dari segi ciri silang, terdapat ratusan karya yang berkaitan dalam industri Dalam amalan, didapati bahawa tiada jenis silangan ciri tersirat boleh menggantikan silang ciri eksplisit padam semua ciri silang dan hanya gunakan Perwakilan tersirat digunakan untuk melakukannya. Persimpangan ciri eksplisit boleh menggambarkan maklumat berkaitan yang persimpangan ciri tersirat tidak dapat dinyatakan. Sudah tentu, jika anda pergi lebih dalam, anda boleh menggunakan AutoML untuk mencari ruang gabungan ciri yang mungkin secara automatik. Oleh itu, dalam amalan, persilangan antara ciri dilakukan terutamanya oleh persilangan ciri eksplisit dan ditambah dengan persilangan ciri tersirat.
- Ciri bias bermakna klik pengguna tidak sama dengan kepuasan pengguna, kerana terdapat pelbagai bias dalam paparan sumber Contohnya, yang paling biasa ialah bias kedudukan Sumber yang dipaparkan dalam pengepala secara semula jadi . Lebih berkemungkinan diklik. Terdapat juga bias sistem. Sistem ini memberi keutamaan untuk menunjukkan apa yang difikirkannya adalah yang terbaik, tetapi ia tidak semestinya yang terbaik.
  Terdapat struktur yang sangat klasik untuk ciri berat sebelah, iaitu struktur Wide&Deep yang dicadangkan oleh Google Pelbagai ciri berat sebelah biasanya diletakkan di sebelah Wide, yang boleh dipangkas terus dalam talian melalui kaedah pengisihan separa ini kesan anggaran tidak berat sebelah.
- Yang terakhir ialah ciri jujukan, yang merupakan jenis ciri peribadi pengguna yang sangat penting. Aliran perdana semasa dalam industri adalah untuk memodelkan jujukan yang sangat panjang Dalam eksperimen tertentu, akan didapati bahawa overhed storan jujukan panjang biasanya sangat besar. Seperti yang dinyatakan dalam artikel sebelumnya, kita perlu mencapai kompromi antara prestasi dan kesan. Jujukan panjang boleh dikira di luar talian, dan jujukan pendek boleh dikira dalam talian dalam masa nyata, jadi kami sering menggabungkan kedua-dua kaedah. Rangkaian gating digunakan untuk memutuskan sama ada pengguna pada masa ini memilih jujukan pendek atau jujukan panjang untuk mengimbangi minat jangka panjang dan minat jangka pendek. Pada masa yang sama, perlu diingatkan bahawa faedah marginal berkurangan apabila urutan dipanjangkan.
3. Sistem ciri dioptimumkan corong pengesyoran

Keseluruhan corong pengesyoran direka bentuk dalam lapisan dan setiap lapisan ditapis dan dipotong. Bagaimana untuk mencapai kecekapan maksimum dalam reka bentuk berlapis dengan pemotongan penapis? Seperti yang dinyatakan sebelum ini, kami akan melakukan latihan bersama model. Selain itu, reka bentuk berkaitan juga boleh dilakukan dalam dimensi reka bentuk ciri. Terdapat juga beberapa masalah di sini:
- Pertama sekali, untuk meningkatkan kadar lulus corong, penarikan balik dan kedudukan kasar dipasang terus kepada pemarkahan kedudukan halus atau penyisihan halus, yang akan membawa kepada pengukuhan lagi kesan Matthew. Pada masa ini, model ingat semula/pengkatan kasar bukanlah Gelagat pengguna yang mendorong proses pembelajaran, sebaliknya corong yang sesuai. Ini bukan keputusan yang kita mahu lihat. Pendekatan yang betul ialah mengesyorkan reka bentuk penyahgandingan bagi setiap lapisan model corong, dan bukannya memasangkan terus lapisan bawah corong.
- Aspek kedua ialah pengisihan kasar, yang secara teorinya lebih dekat untuk diingat semula dan pada asasnya bersamaan dengan saluran keluar untuk penarikan semula bersatu. Oleh itu, pada tahap pengisihan kasar, lebih banyak isyarat panggil balik boleh diperkenalkan, seperti isyarat pengundian ramai untuk cadangan kolaboratif, laluan indeks graf, dsb., supaya pengisihan kasar boleh dioptimumkan bersama dengan baris gilir panggil semula, supaya kecekapan penarikan balik sumber yang memasuki pengisihan halus boleh dipertingkatkan Optimize.
- Yang ketiga ialah penggunaan semula pengiraan, yang boleh meningkatkan keteguhan model sambil mengurangkan jumlah pengiraan. Perlu diingatkan di sini bahawa selalunya terdapat model bertingkat Model peringkat kedua menggunakan skor model peringkat pertama sebagai ciri Pendekatan ini sangat berisiko kerana nilai anggaran akhir model adalah taburan yang tidak stabil nilai model peringkat pertama digunakan secara langsung sebagai ciri, model peringkat rendah akan digandingkan dengan teruk, menyebabkan ketidakstabilan sistem.
3. Algoritma

Seterusnya, kami akan memperkenalkan reka bentuk algoritma teras.

1. Isih model dari perspektif sistem

Pertama, mari lihat model pengisihan pengesyoran. Secara amnya dipercayai bahawa penarafan halus adalah model yang paling tepat dalam sistem pengesyoran. Terdapat pandangan dalam industri bahawa susun atur kasar dilampirkan pada susun atur halus dan boleh dipelajari daripada susun atur halus Walau bagaimanapun, dalam amalan sebenar, telah didapati bahawa susun atur kasar tidak boleh dipelajari secara langsung daripada susun atur halus, yang boleh menyebabkan banyak masalah.

Seperti yang anda lihat dari gambar di atas, kedudukan isihan kasar dan isihan halus adalah berbeza. Secara umumnya, sampel latihan pengisihan kasar adalah sama dengan sampel pengisihan halus, yang juga merupakan sampel paparan. Setiap kali terdapat berpuluh-puluh ribu calon dipanggil semula untuk kedudukan kasar, lebih daripada 99% sumber tidak dipaparkan, dan model itu hanya menggunakan sedozen atau lebih sumber yang akhirnya dipaparkan untuk latihan, yang memecahkan kebebasan Di bawah andaian pengedaran yang sama, pengedaran model luar talian sangat berbeza. Situasi ini paling serius dalam penarikan balik, kerana set calon penarikan semula adalah berjuta-juta, berpuluh-puluh juta atau bahkan ratusan juta, dan kebanyakan keputusan akhir yang dikembalikan tidak dipaparkan juga kerana set calon biasanya masuk berpuluh ribu. Pengisihan yang halus secara relatifnya lebih baik Setelah melalui corong dua lapisan penarikan balik dan pengisihan kasar, kualiti asas sumber terjamin terutamanya dalam memilih yang terbaik daripada yang terbaik. Oleh itu, masalah ketidakkonsistenan pengedaran luar talian dalam penarafan halus tidak begitu serius, dan tidak perlu mengambil kira terlalu banyak masalah bias pemilihan sampel (SSB Pada masa yang sama, kerana set calon adalah kecil, pengiraan berat boleh). dilakukan. Kedudukan halus memfokuskan pada persimpangan ciri, pemodelan jujukan, dsb.

Walau bagaimanapun, tahap pengisihan kasar tidak boleh dipelajari secara langsung daripada pengisihan halus, juga tidak boleh dikira semula secara langsung sama dengan pengisihan halus, kerana jumlah pengiraan adalah berpuluh kali ganda daripada pengisihan halus secara langsung konsep reka bentuk ialah mesin dalam talian tidak boleh ditanggung sepenuhnya, jadi susun atur yang kasar memerlukan tahap kemahiran yang tinggi untuk mengimbangi prestasi dan kesan. Ia adalah modul yang ringan. Fokus lelaran pengisihan kasar adalah berbeza daripada pengisihan halus Ia terutamanya menyelesaikan masalah seperti bias pemilihan sampel dan pengoptimuman baris gilir. Memandangkan pengisihan kasar berkait rapat dengan penarikan balik, lebih banyak perhatian diberikan kepada kualiti purata beribu-ribu sumber yang dikembalikan kepada pengisihan halus dan bukannya hubungan pengisihan yang tepat. Kedudukan halus lebih berkait rapat dengan penyusunan semula dan lebih memfokuskan pada ketepatan AUC bagi satu titik.

Oleh itu, dalam reka bentuk ranking kasar, ia lebih kepada pemilihan dan penjanaan sampel, dan reka bentuk ciri dan rangkaian generalisasi. Reka bentuk yang diperhalusi boleh melakukan ciri persimpangan berbilang pesanan yang kompleks, pemodelan jujukan ultra-panjang, dsb.

2. Generalisasi DNN diskret berskala besar

Pengenalan sebelum ini adalah pada peringkat makro.

Khusus mengenai proses latihan model, arus perdana semasa dalam industri adalah menggunakan DNN diskret berskala ultra besar, dan masalah generalisasi akan menjadi lebih serius. Kerana DNN diskret berskala ultra-besar, melalui lapisan pembenaman, terutamanya melaksanakan fungsi ingatan. Lihat rajah di atas Keseluruhan ruang benam adalah matriks yang sangat besar, biasanya dengan ratusan bilion atau trilion baris dan 1,000 lajur. Oleh itu, latihan model diedarkan sepenuhnya, dengan berpuluh-puluh atau bahkan ratusan GPU melakukan latihan teragih.

Secara teorinya, untuk matriks yang begitu besar, pengiraan ganas tidak akan dilakukan secara langsung, tetapi operasi yang serupa dengan penguraian matriks akan digunakan. Sudah tentu, penguraian matriks ini berbeza daripada penguraian matriks SVD standard Penguraian matriks di sini mula-mula mempelajari perwakilan dimensi rendah, dan mengurangkan jumlah pengiraan dan penyimpanan melalui perkongsian parameter antara slot, iaitu, ia diuraikan menjadi. dua matriks proses pembelajaran. Yang pertama ialah ciri dan matriks perwakilan, yang akan mempelajari hubungan antara ciri dan pembenaman dimensi rendah ini sangat rendah, dan pembenaman kira-kira sepuluh dimensi biasanya dipilih. Yang satu lagi ialah matriks pembenaman dan neuron, dan pemberat antara setiap slot dikongsi. Dengan cara ini, volum storan dikurangkan dan kesannya bertambah baik.

lower-dimensi-dimensi pembelajaran adalah kunci untuk mengoptimumkan keupayaan generalisasi DNN di luar talian. skala dan nombor sampel lebih baik. . sumber , pengguna kepala boleh menggunakan dimensi benam yang lebih panjang Ini adalah idea umum dimensi benam yang dinamik, iaitu, lebih banyak dipaparkan lebih panjang dimensi benam. Sudah tentu, jika anda ingin menjadi lebih mewah, anda boleh menggunakan autoML dan kaedah lain untuk melakukan pembelajaran pengukuhan dan secara automatik mencari panjang benam yang optimum.

Aspek kedua ialah ambang penciptaan Memandangkan sumber yang berbeza mempunyai jumlah paparan yang berbeza, masa untuk mencipta perwakilan terbenam untuk ciri juga perlu dipertimbangkan.
- 3. Masalah overfitting
- Industri biasanya menggunakan kaedah latihan dua peringkat untuk menahan pemasangan berlebihan. Keseluruhan model terdiri daripada dua lapisan, satu adalah lapisan matriks diskret yang besar, dan satu lagi adalah lapisan parameter padat kecil. Lapisan matriks diskret sangat mudah untuk overfit, jadi amalan industri biasanya menggunakan Latihan Satu Lulus, iaitu, pembelajaran dalam talian, di mana semua data dilalui, dan latihan kelompok tidak dilakukan seperti di akademi.
  
  Selain itu, industri biasanya menggunakan set pengesahan masa untuk menyelesaikan masalah overfitting lapisan jarang. Bahagikan keseluruhan set data latihan kepada banyak Delta, T0, T1, T2 dan T3, mengikut dimensi masa. Setiap latihan ditetapkan dengan lapisan parameter diskret yang dilatih beberapa jam yang lalu, dan kemudian data Delta seterusnya digunakan untuk memperhalusi rangkaian padat. Iaitu, dengan membetulkan lapisan jarang dan melatih semula parameter lain, masalah overfitting model dapat dikurangkan.
  
  Pendekatan ini juga akan membawa masalah lain, kerana latihan dibahagikan, dan parameter diskret pada masa T0 perlu diperbaiki setiap kali, dan kemudian peringkat gabungan dilatih semula pada masa t+1, yang akan menyeret ke bawah keseluruhan latihan. Oleh itu, dalam beberapa tahun kebelakangan ini, latihan satu peringkat telah diterima pakai, iaitu lapisan perwakilan diskret dan lapisan rangkaian padat dikemas kini secara serentak dalam Delta. Terdapat juga masalah dengan latihan satu peringkat, kerana sebagai tambahan kepada ciri membenamkan, keseluruhan model juga mempunyai banyak ciri bernilai berterusan ini akan mengira klik paparan setiap ciri diskret risiko persilangan data. Oleh itu, dalam amalan sebenar, langkah pertama adalah untuk mengalih keluar ciri statistik, dan langkah kedua adalah untuk melatih rangkaian padat bersama-sama dengan perwakilan diskret, menggunakan kaedah latihan satu peringkat. Di samping itu, keseluruhan panjang terbenam boleh berskala secara automatik. Melalui siri kaedah ini, latihan model boleh dipercepatkan kira-kira 30%. Amalan menunjukkan bahawa tahap overfitting kaedah ini adalah sangat sedikit, dan perbezaan antara AUC latihan dan ujian adalah 1/1000 atau lebih rendah.
  
  IV.
  
  1. Prinsip reka bentuk berlapis sistem
  
  Prinsip teras reka bentuk sistem ialah kaedah divide and conquer. Pengingat semula memerlukan berbilang saluran Matlamat teras adalah untuk meningkatkan kadar penarikan balik dan kekayaan sumber penarikan balik. Pada masa yang sama, penarikan balik juga mesti mempertimbangkan isu penerokaan dan penggunaan, yang merupakan jaminan asas untuk kesan pengesyoran. Pengisihan kasar ialah peringkat pertama penapisan, terutamanya untuk anggaran titik ringan, menyambungkan sebelumnya dan seterusnya. Kedudukan halus biasanya melibatkan pengiraan dan ramalan yang berat Ia berkait rapat dengan penyusunan semula Ia biasanya menggunakan struktur yang sangat kompleks dan juga menjadi tumpuan penyelidikan industri. Penyusunan semula ialah lapisan terakhir Penyusunan semula adalah khusus untuk pengguna dan menentukan jujukan paparan akhir Berdasarkan keputusan pemeringkatan yang halus, konteks dipertimbangkan dan kemudian ramalan jujukan yang kompleks dibuat, iaitu, senarai yang bijak. Penyusunan semula perlu mempertimbangkan banyak kekangan perniagaan Terdapat banyak peraturan di dalamnya, termasuk pemecahan, LCN, keluar, dll. Ia adalah modul yang didorong oleh kedua-dua peraturan dan model.
  Matlamat setiap lapisan sistem pengesyoran pada asasnya adalah sama, tetapi fokus setiap lapisan adalah berbeza. Penarafan ingat dan kasar tertumpu pada pengitlak dan kadar ingatan, penarafan halus memfokuskan pada ketepatan AUC titik tunggal, dan penyusunan semula memfokuskan pada pengoptimuman jujukan keseluruhan. Dari sudut pandangan data, lebih dekat dengan pengisihan kasar ingatan, lebih umum ia, dan lebih dekat dengan pengisihan dan penyusunan semula yang halus, lebih banyak ketepatan diperlukan. Lebih dekat dengan sumber panggil balik, lebih serius had prestasi, kerana lebih banyak sumber calon, lebih besar kerumitan pengiraan. Ini adalah salah faham bahawa pengisihan kasar hanya perlu diselaraskan dengan pengisihan halus perlu mempertimbangkan konsistensi dengan pengisihan halus, tetapi ia tidak boleh hanya diselaraskan dengan pengisihan halus. Jika anda tidak melakukan apa-apa untuk pengisihan kasar dan hanya menyelaraskan dan menyusun halus, ia akan membawa kesan kuda
  yang sangat serius. Kerana kedudukan yang baik bukanlah kebenaran asas, anda perlu mempelajari tingkah laku pengguna dengan baik, bukan mempelajari kedudukan yang baik Ini adalah petua yang sangat penting.
  
  2. Latihan bersama model berbilang peringkat
  
  Hubungan antara kedudukan halus dan penyusunan semula adalah sangat rapat pada tahun-tahun awal, penyusunan semula secara langsung dilatih menggunakan skor kedudukan yang baik , ia digabungkan Ia sangat serius Sebaliknya, menggunakan pemarkahan yang tepat secara langsung untuk latihan boleh menyebabkan turun naik dalam talian.
  
  Baidu Fengchao CTR 3.0 projek latihan bersama kedudukan dan penyusunan semula dengan sangat bijak menggunakan model untuk berlatih serentak untuk mengelakkan masalah gandingan pemarkahan. Projek ini menggunakan lapisan tersembunyi dan pemarkahan dalaman sub-rangkaian peringkat halus sebagai ciri-ciri sub-rangkaian penyusunan semula Kemudian, sub-rangkaian penyusunan halus dan penyusunan semula diasingkan dan digunakan dalam modul masing-masing. Di satu pihak, keputusan pertengahan boleh digunakan semula dengan baik tanpa masalah turun naik yang disebabkan oleh gandingan pemarkahan Pada masa yang sama, ketepatan penyusunan semula akan dipertingkatkan dengan peratusan. Ini juga merupakan salah satu sub-projek yang menerima anugerah tertinggi Baidu pada tahun itu.
  
  Selain itu, sila ambil perhatian bahawa projek ini bukanlah ESSM ESSM ialah pemodelan CTCVR dan pemodelan berbilang objektif, dan latihan bersama CTR3.0 terutamanya menyelesaikan masalah gandingan pemarkahan dan ketepatan model penyusunan semula.
  
  Selain itu, penarikan balik dan pengisihan kasar mesti dipisahkan, kerana baris gilir baru ditambah, yang mungkin tidak adil kepada baris gilir baru. Oleh itu, kaedah topeng rawak dicadangkan, iaitu menutup beberapa ciri secara rawak supaya tahap gandingan tidak begitu kuat.
  
  3. Rangkaian penghalaan jarang
  
  Akhirnya mari kita lihat proses penggunaan dalam talian. Skala parameter model adalah dalam susunan ratusan bilion hingga trilion, dan terdapat banyak sasaran Penggunaan dalam talian langsung adalah sangat mahal, dan kami tidak boleh hanya mempertimbangkan kesannya tanpa mengambil kira prestasi. Cara yang lebih baik ialah pengiraan elastik, sama dengan idea KPM Jarang.
  
  Barisan kasar mempunyai akses kepada banyak baris gilir, dengan berpuluh-puluh malah ratusan barisan. Baris gilir ini mempunyai nilai dalam talian (LTV) yang berbeza Lapisan nilai trafik mengira nilai baris gilir ingat yang berbeza kepada tempoh klik dalam talian. Idea terasnya ialah lebih besar sumbangan keseluruhan baris gilir penarikan balik, pengiraan yang lebih kompleks boleh dinikmati. Ini membolehkan kuasa pengkomputeran terhad untuk melayani trafik bernilai lebih tinggi. Oleh itu, kami tidak menggunakan kaedah penyulingan tradisional, tetapi menerima pakai idea yang serupa dengan Sparse MOE untuk pengkomputeran elastik, iaitu reka bentuk strategi dan reka bentuk bersama seni bina, supaya baris gilir panggil yang berbeza boleh menggunakan rangkaian sumber yang paling sesuai untuk pengiraan. .
  
  5. Rancangan Masa Depan
  
  Seperti yang kita sedia maklum, kini kita sudah memasuki era model besar LLM. Penerokaan Baidu terhadap sistem cadangan generasi akan datang berdasarkan model bahasa besar LLM akan dijalankan dari tiga aspek.
  
  Aspek pertama ialah menaik taraf model daripada ramalan asas kepada boleh membuat keputusan. Sebagai contoh, isu penting seperti penerokaan cekap sumber permulaan sejuk klasik, maklum balas pengesyoran urutan mendalam dan rantaian membuat keputusan daripada carian hingga pengesyoran semuanya boleh dibuat dengan bantuan model besar.
  
  Aspek kedua ialah dari diskriminasi kepada generasi Kini keseluruhan model adalah diskriminasi Pada masa hadapan, kami akan meneroka kaedah pengesyoran generatif, seperti menjana sebab pengesyoran secara automatik, meningkatkan data ekor panjang secara automatik berdasarkan gesaan. model perolehan semula.
  
  Aspek ketiga ialah dari kotak hitam kepada kotak putih Dalam sistem pengesyoran tradisional, orang sering mengatakan bahawa rangkaian saraf adalah alkimia dan kotak hitam sama ada boleh meneroka ke arah kotak putih juga tugas penting pada masa hadapan. Contohnya, berdasarkan sebab dan akibat, kita boleh meneroka sebab di sebalik peralihan keadaan gelagat pengguna, membuat anggaran tidak berat sebelah yang lebih baik dari segi kesaksamaan pengesyoran dan membolehkan penyesuaian adegan yang lebih baik dalam senario Pembelajaran Mesin Berbilang Tugas.

Atas ialah kandungan terperinci Penerokaan dan aplikasi teknologi ranking Baidu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!