Kertas: Kemajuan Terkini dalam Pembelajaran Mendalam: Satu Tinjauan
Alamat kertas: https://arxiv. org/pdf/1807.08169v1.pdf
Abstrak: Pembelajaran mendalam ialah salah satu trend terkini dalam pembelajaran mesin dan penyelidikan kecerdasan buatan. Ia juga merupakan salah satu trend penyelidikan saintifik yang paling popular hari ini. Kaedah pembelajaran mendalam telah membawa kemajuan revolusioner dalam penglihatan komputer dan pembelajaran mesin. Teknik pembelajaran mendalam baharu sentiasa dicipta, mengatasi pembelajaran mesin tercanggih dan juga teknik pembelajaran mendalam sedia ada. Dalam beberapa tahun kebelakangan ini, banyak kejayaan besar telah dibuat dalam bidang ini di seluruh dunia. Oleh kerana perkembangan pesat pembelajaran mendalam, kemajuannya sukar untuk diikuti, terutamanya untuk penyelidik baru. Dalam artikel ini, kami akan membincangkan secara ringkas kemajuan terkini dalam pembelajaran mendalam dalam beberapa tahun kebelakangan ini.
Istilah "pembelajaran mendalam" (DL) mula diperkenalkan ke dalam pembelajaran mesin (ML) pada tahun 1986, dan kemudiannya pada tahun 2000 telah digunakan dalam rangkaian neural buatan (ANN). Kaedah pembelajaran mendalam terdiri daripada berbilang lapisan untuk mempelajari ciri data dengan pelbagai peringkat abstraksi. Kaedah DL membolehkan komputer mempelajari konsep yang kompleks melalui konsep yang agak mudah. Untuk rangkaian saraf tiruan (ANN), pembelajaran mendalam (DL) (juga dikenali sebagai pembelajaran hierarki) merujuk kepada peruntukan kredit yang tepat merentas berbilang peringkat pengiraan untuk mengubah pengaktifan agregat dalam rangkaian. Untuk mempelajari fungsi yang kompleks, seni bina dalam digunakan pada pelbagai peringkat pengabstrakan, iaitu operasi bukan linear seperti ANN, dengan banyak lapisan tersembunyi. Untuk meringkaskan dalam perkataan yang tepat, pembelajaran mendalam ialah subbidang pembelajaran mesin yang menggunakan pelbagai peringkat pemprosesan dan pengabstrakan maklumat tak linear untuk pembelajaran ciri, perwakilan, pengelasan dan pengecaman corak yang diselia atau tidak diselia.
Pembelajaran mendalam, atau pembelajaran perwakilan, ialah cabang atau subbidang pembelajaran mesin Kebanyakan orang percaya bahawa kaedah pembelajaran mendalam moden telah dibangunkan bermula pada tahun 2006. Artikel ini adalah ulasan tentang teknologi pembelajaran mendalam terkini dan disyorkan terutamanya kepada penyelidik yang akan melibatkan diri dalam bidang ini. Artikel ini merangkumi idea asas, kaedah utama, perkembangan terkini dan aplikasi DL.
Kertas semakan sangat bermanfaat, terutamanya kepada penyelidik baharu dalam bidang tertentu. Jika bidang penyelidikan mempunyai nilai yang besar dalam masa terdekat dan bidang aplikasi yang berkaitan, biasanya sukar untuk menjejaki kemajuan terkini dalam masa nyata. Penyelidikan saintifik adalah kerjaya yang menarik pada masa kini kerana pengetahuan dan pendidikan lebih mudah untuk dikongsi dan diperoleh berbanding sebelum ini. Satu-satunya andaian biasa untuk trend penyelidikan teknologi ialah ia akan melihat banyak peningkatan dalam semua aspek. Gambaran keseluruhan bidang dari beberapa tahun yang lalu mungkin sudah lapuk.
Memandangkan populariti dan promosi pembelajaran mendalam dalam beberapa tahun kebelakangan ini, kami menyediakan gambaran ringkas tentang pembelajaran mendalam dan rangkaian saraf (NN), serta kemajuan utama dan kejayaan besarnya sejak kebelakangan ini. tahun. Kami berharap artikel ini akan membantu ramai penyelidik baru dalam bidang ini memperoleh pemahaman yang komprehensif tentang penyelidikan dan teknik pembelajaran mendalam baru-baru ini, dan membimbing mereka untuk bermula dengan cara yang betul. Pada masa yang sama, kami berharap dapat memberi penghormatan kepada penyelidik DL dan ANN teratas era ini melalui kerja ini: Geoffrey Hinton (Hinton), Juergen Schmidhuber (Schmidhuber), Yann LeCun (LeCun), Yoshua Bengio (Bengio) dan ramai lagi sarjana penyelidikan, yang penyelidikannya membina kecerdasan buatan (AI) moden. Ia juga penting bagi kami untuk membuat susulan pada kerja mereka untuk menjejaki kemajuan semasa terbaik dalam penyelidikan DL dan ML.
Dalam kertas ini, kami mula-mula menerangkan secara ringkas kertas penyelidikan lepas dan mengkaji model dan kaedah pembelajaran mendalam. Kami kemudiannya akan mula menerangkan kemajuan terkini dalam bidang ini. Kami akan membincangkan kaedah pembelajaran mendalam (DL), seni bina dalam (iaitu, rangkaian saraf dalam (DNN)), dan model generatif dalam (DGM), diikuti dengan kaedah regularisasi dan pengoptimuman yang penting. Selain itu, dua bahagian pendek digunakan untuk meringkaskan rangka kerja DL sumber terbuka dan aplikasi DL penting. Kami membincangkan keadaan semasa dan masa depan pembelajaran mendalam dalam dua bab terakhir, Perbincangan dan Kesimpulan.
Dalam beberapa tahun kebelakangan ini, terdapat banyak kertas ulasan tentang pembelajaran mendalam. Mereka menerangkan dengan cara yang baik kaedah DL, metodologi serta aplikasi mereka dan hala tuju penyelidikan masa depan. Di sini, kami secara ringkas memperkenalkan beberapa kertas ulasan yang sangat baik tentang pembelajaran mendalam.
Young et al (2017) membincangkan model dan seni bina DL, terutamanya untuk pemprosesan bahasa semula jadi (NLP). Mereka mempersembahkan aplikasi DL dalam domain NLP yang berbeza, membandingkan model DL dan membincangkan kemungkinan trend masa depan.
Zhang et al (2017) membincangkan teknik pembelajaran mendalam terbaik semasa untuk sistem pengecaman pertuturan bahagian hadapan dan belakang.
Zhu et al (2017) menyemak kemajuan terkini dalam teknologi penderiaan jauh DL. Mereka juga membincangkan rangka kerja DL sumber terbuka dan butiran teknikal pembelajaran mendalam yang lain.
Wang et al (2017) menerangkan evolusi model pembelajaran mendalam secara kronologi. Artikel pendek ini secara ringkas memperkenalkan model dan penemuannya dalam penyelidikan DL. Artikel ini menggunakan pendekatan evolusi untuk memahami asal usul pembelajaran mendalam, dan menerangkan pengoptimuman dan penyelidikan masa depan rangkaian saraf.
Goodfellow et al (2016) membincangkan rangkaian mendalam dan model generatif secara terperinci Bermula daripada pengetahuan asas pembelajaran mesin (ML) dan kelebihan dan kekurangan seni bina mendalam, mereka menyemak. Penyelidikan dan pembangunan DL dalam beberapa tahun kebelakangan ini diringkaskan.
LeCun et al (2015) memberikan gambaran keseluruhan model pembelajaran mendalam (DL) daripada rangkaian neural convolutional (CNN) dan rangkaian neural berulang (RNN). Mereka menerangkan DL dari perspektif pembelajaran perwakilan, menunjukkan cara teknik DL berfungsi, cara ia boleh digunakan dengan jayanya dalam pelbagai aplikasi, dan cara mereka boleh belajar meramal masa depan berdasarkan pembelajaran tanpa pengawasan (UL). Mereka juga menunjukkan kemajuan utama dalam DL dalam bibliografi.
Schmidhuber (2015) memberikan gambaran keseluruhan pembelajaran mendalam daripada CNN, RNN dan pembelajaran peneguhan mendalam (RL). Beliau menekankan RNN untuk pemprosesan jujukan, sambil menunjukkan batasan DL dan NN asas, serta petua untuk memperbaikinya.
Nielsen (2015) menerangkan butiran rangkaian saraf dengan kod dan contoh. Beliau juga membincangkan rangkaian saraf dalam dan pembelajaran mendalam sedikit sebanyak.
Schmidhuber (2014) membincangkan sejarah dan kemajuan rangkaian neural berasaskan siri masa, klasifikasi menggunakan kaedah pembelajaran mesin dan penggunaan pembelajaran mendalam dalam rangkaian saraf.
Deng dan Yu (2014) menerangkan kategori dan teknik pembelajaran mendalam, serta aplikasi DL dalam beberapa bidang.
Bengio (2013) memberikan gambaran ringkas tentang algoritma DL dari perspektif pembelajaran perwakilan, iaitu rangkaian, pengoptimuman dan model latihan yang diselia dan tidak diselia. Beliau memberi tumpuan kepada banyak cabaran pembelajaran mendalam, seperti: algoritma penskalaan untuk model dan data yang lebih besar, mengurangkan kesukaran pengoptimuman, mereka bentuk kaedah penskalaan yang cekap, dsb.
Bengio et al (2013) membincangkan perwakilan dan pembelajaran ciri iaitu pembelajaran mendalam. Mereka meneroka pelbagai pendekatan dan model dari perspektif aplikasi, teknologi dan cabaran.
Deng (2011) menyediakan gambaran keseluruhan pembelajaran berstruktur mendalam dan seni binanya dari perspektif pemprosesan maklumat dan bidang berkaitan.
Arel et al (2010) memberikan gambaran ringkas tentang teknologi DL dalam beberapa tahun kebelakangan ini.
Bengio (2009) membincangkan seni bina dalam, iaitu rangkaian saraf dan model generatif untuk kecerdasan buatan.
Semua kertas kerja terbaru tentang pembelajaran mendalam (DL) membincangkan fokus pembelajaran mendalam daripada pelbagai perspektif. Ini sangat diperlukan untuk penyelidik DL. Walau bagaimanapun, DL kini merupakan bidang yang berkembang pesat. Selepas kertas tinjauan DL baru-baru ini, banyak teknik dan seni bina baharu telah dicadangkan. Selain itu, kertas kerja terdahulu telah mengkajinya dari perspektif yang berbeza. Kertas kerja kami ditujukan terutamanya kepada pelajar dan orang baru yang baru dalam bidang ini. Untuk tujuan ini, kami akan berusaha untuk menyediakan asas dan konsep pembelajaran mendalam yang jelas untuk penyelidik baharu dan sesiapa sahaja yang berminat dalam bidang ini.
Dalam bahagian ini, kita membincangkan kemajuan terkini yang diperoleh daripada pembelajaran mesin dan rangkaian saraf buatan (ANN) Daripada kaedah pembelajaran mendalam (DL) utama, rangkaian saraf tiruan ialah bentuk pembelajaran mendalam yang paling biasa digunakan.
Rangkaian Neural Buatan (ANN) telah mencapai kemajuan yang besar dan turut membawa Model kedalaman yang lain. Generasi pertama rangkaian saraf tiruan terdiri daripada lapisan saraf perceptron ringkas yang hanya boleh melakukan pengiraan mudah terhad. Generasi kedua menggunakan perambatan belakang untuk mengemas kini berat neuron berdasarkan kadar ralat. Kemudian Mesin Vektor Sokongan (SVM) muncul di hadapan dan memintas ANN untuk seketika. Untuk mengatasi batasan penyebaran belakang, mesin Boltzmann terhad (RBM) telah dicadangkan untuk memudahkan pembelajaran. Pada masa ini teknologi dan rangkaian saraf lain turut muncul, seperti rangkaian neural suapan (FNN), rangkaian neural convolutional (CNN), rangkaian saraf berulang (RNN), dll., serta rangkaian kepercayaan mendalam, pengekod auto, dsb. Sejak itu, ANN telah diperbaiki dan direka bentuk dalam pelbagai aspek untuk pelbagai tujuan.
Schmidhuber (2014), Bengio (2009), Deng dan Yu (2014), Goodfellow et al (2016), Wang et al (2017) pada rangkaian saraf dalam (DNN ) Evolusi dan sejarah serta pembelajaran mendalam (DL) diberi gambaran terperinci. Dalam kebanyakan kes, seni bina dalam ialah lelaran bukan linear berbilang lapisan bagi seni bina ringkas, membolehkan fungsi yang sangat kompleks diperoleh daripada input.
Rangkaian saraf dalam telah mencapai kejayaan besar dalam pembelajaran terselia. Selain itu, model pembelajaran mendalam telah sangat berjaya dalam pembelajaran tanpa pengawasan, hibrid dan pengukuhan.
Pembelajaran seliaan digunakan apabila pelabelan data, pengelasan pengelas atau ramalan berangka. LeCun et al (2015) memberikan penjelasan yang diperkemas tentang kaedah pembelajaran yang diselia dan pembentukan struktur yang mendalam. Deng dan Yu (2014) menyebut dan menjelaskan banyak rangkaian dalam untuk pembelajaran diselia dan hibrid, seperti rangkaian tindanan dalam (DSN) dan variannya. Penyelidikan Schmidthuber (2014) merangkumi semua rangkaian saraf, daripada rangkaian saraf awal hingga kejayaan rangkaian saraf konvolusional (CNN), rangkaian saraf berulang (RNN), ingatan jangka pendek panjang (LSTM) dan peningkatannya.
Apabila data input tidak mempunyai label, kaedah pembelajaran tanpa pengawasan boleh digunakan untuk mengekstrak ciri daripada data dan mengelaskannya atau menandainya . LeCun et al (2015) meramalkan masa depan pembelajaran tanpa pengawasan dalam pembelajaran mendalam. Schmidthuber (2014) juga menerangkan rangkaian saraf untuk pembelajaran tanpa pengawasan. Deng dan Yu (2014) secara ringkas memperkenalkan seni bina mendalam untuk pembelajaran tanpa pengawasan dan menerangkan pengekod auto mendalam secara terperinci.
Pembelajaran peneguhan menggunakan sistem ganjaran dan hukuman untuk meramalkan langkah seterusnya model pembelajaran. Ini digunakan terutamanya dalam permainan dan robot untuk menyelesaikan masalah membuat keputusan yang biasa. Schmidthuber (2014) menerangkan kemajuan dalam pembelajaran mendalam dalam pembelajaran tetulang (RL) dan aplikasi rangkaian neural suapan dalam (FNN) dan rangkaian saraf berulang (RNN) dalam RL. Li (2017) membincangkan Pembelajaran Pengukuhan Dalam (DRL), seni binanya (seperti Deep Q-Network, DQN), dan aplikasinya dalam pelbagai bidang.
Mnih et al. (2016) mencadangkan rangka kerja DRL untuk pengoptimuman DNN menggunakan keturunan kecerunan tak segerak.
van Hasselt et al (2015) mencadangkan seni bina DRL menggunakan rangkaian saraf dalam (DNN).
Dalam bahagian ini, kita akan membincangkan secara ringkas Rangkaian Neural Dalam (DNN), dan Penambahbaikan dan penemuan terbaru mereka. . Rangkaian saraf berfungsi sama dengan otak manusia. Mereka terutamanya terdiri daripada neuron dan sambungan. Apabila kita menyebut rangkaian neural dalam, kita boleh menganggap bahawa terdapat beberapa lapisan tersembunyi yang boleh digunakan untuk mengekstrak ciri dan mengira fungsi kompleks daripada input. Bengio (2009) menerangkan rangkaian saraf berstruktur mendalam seperti rangkaian saraf konvolusi (CNN), pengekod auto (AE), dll. dan variannya. Deng dan Yu (2014) memberikan pengenalan terperinci kepada beberapa seni bina rangkaian saraf seperti AE dan variannya. Goodfellow et al. (2016) memperkenalkan dan menerangkan secara teknikal rangkaian suapan hadapan yang mendalam, rangkaian konvolusi, rangkaian berulang dan penambahbaikannya. Schmidhuber (2014) menyebut sejarah lengkap rangkaian saraf daripada rangkaian saraf awal hingga teknologi berjaya terkini.
Pengekod auto (AE) ialah rangkaian neural (NN) di mana output ialah input. AE mengambil input mentah, mengodkannya ke dalam perwakilan termampat, dan kemudian menyahkodnya untuk membina semula input. Dalam AE dalam, lapisan tersembunyi rendah digunakan untuk pengekodan, lapisan tersembunyi tinggi digunakan untuk penyahkodan, dan perambatan balik ralat digunakan untuk latihan.
5.1.1 Pengekod Auto Variasi
Pengekod Auto Variasi (VAE) boleh dikira sebagai peranti penyahkod. VAE dibina pada rangkaian neural standard dan boleh dilatih melalui keturunan kecerunan stokastik (Doersch, 2016).
5.1.2 Pengekod automatik penyahkod berbilang lapisan
Dalam pengekod auto (AE) awal, lapisan pengekodan mempunyai lebih kecil dimensi (lebih sempit) daripada lapisan input. Dalam multi-layer denoising autoencoders (SDAE), lapisan pengekodan adalah lebih luas daripada lapisan input (Deng dan Yu, 2014).
5.1.3 Transform Autoencoders
Deep autoencoders (DAEs) boleh menjadi transform-variable , iaitu, ciri yang diekstrak daripada pemprosesan tak linear berbilang lapisan boleh diubah mengikut keperluan pelajar. Transforming autoencoders (TAEs) boleh menggunakan kedua-dua vektor input dan vektor output sasaran untuk menggunakan sifat invarian transformasi untuk membimbing kod ke arah yang dikehendaki (Deng dan Yu, 2014).
Empat idea asas membentuk rangkaian neural convolutional (CNN), iaitu: sambungan setempat, berkongsi Berat, penyatuan dan penggunaan berbilang lapisan. Bahagian pertama CNN terdiri daripada lapisan konvolusi dan lapisan penggabungan, dan bahagian terakhir adalah terutamanya lapisan bersambung sepenuhnya. Lapisan konvolusi mengesan sambungan tempatan ciri, dan lapisan gabungan menggabungkan ciri yang serupa menjadi satu. CNN menggunakan konvolusi dan bukannya pendaraban matriks dalam lapisan konvolusi.
Krizhevsky et al (2012) mencadangkan seni bina rangkaian neural convolutional (CNN), juga dikenali sebagai AlexNet, yang merupakan langkah penting dalam pembelajaran mendalam (DL). Rangkaian ini terdiri daripada 5 lapisan konvolusi dan 3 lapisan bersambung sepenuhnya. Seni bina menggunakan unit pemprosesan grafik (GPU) untuk operasi lilitan, fungsi linear yang diperbetulkan (ReLU) sebagai fungsi pengaktifan dan Dropout untuk mengurangkan overfitting.
Iandola et al (2016) mencadangkan seni bina CNN kecil yang dipanggil "SqueezeNet".
Szegedy et al (2014) mencadangkan seni bina CNN yang mendalam bernama Inception. Dai et al (2017) mencadangkan penambahbaikan kepada Inception-ResNet.
Redmon et al (2015) mencadangkan seni bina CNN yang dipanggil YOLO (You Only Look Once) untuk pengesanan objek seragam dan masa nyata.
Zeiler dan Fergus (2013) mencadangkan kaedah untuk menggambarkan pengaktifan dalam CNN.
Gehring et al (2017) mencadangkan seni bina CNN untuk pembelajaran urutan-ke-jujukan.
Bansal et al (2017) mencadangkan PixelNet, yang menggunakan piksel untuk mewakili.
Goodfellow et al (2016) menjelaskan seni bina dan idea asas CNN. Gu et al. (2015) memberikan gambaran keseluruhan yang baik tentang kemajuan terkini dalam CNN, pelbagai varian CNN, seni bina CNN, kaedah dan keupayaan regularisasi, dan aplikasi dalam pelbagai bidang.
5.2.1 Deep Max Pooling Convolutional Neural Network
Max Pooling Convolutional Neural Network (MPCNN) terutamanya beroperasi pada konvolusi dan pengumpulan maksimum, terutamanya dalam pemprosesan imej digital. MPCNN biasanya terdiri daripada tiga lapisan selain lapisan input. Lapisan konvolusi mengambil imej input dan menjana peta ciri, kemudian menggunakan fungsi pengaktifan tak linear. Lapisan pengumpulan maksimum menurunkan sampel imej dan mengekalkan nilai maksimum sub-rantau. Lapisan bersambung sepenuhnya melakukan pendaraban linear. Dalam MPCNN mendalam, konvolusi dan pengumpulan hibrid digunakan secara berkala selepas lapisan input, diikuti dengan lapisan bersambung sepenuhnya.
5.2.2 Rangkaian saraf konvolusi yang sangat dalam
Simonyan dan Zisserman (2014) mencadangkan saraf konvolusi yang sangat mendalam rangkaian seni bina Convolutional Neural Network (VDCNN), juga dikenali sebagai VGG Net. VGG Net menggunakan penapis konvolusi yang sangat kecil dengan kedalaman 16-19 lapisan. Conneau et al. (2016) mencadangkan satu lagi seni bina VDCNN untuk pengelasan teks menggunakan konvolusi kecil dan pengumpulan. Mereka mendakwa bahawa seni bina VDCNN ini adalah yang pertama digunakan dalam pemprosesan teks dan ia berfungsi pada tahap aksara. Seni bina terdiri daripada 29 lapisan konvolusi.
Lin et al (2013) mencadangkan Rangkaian Dalam Rangkaian (NIN). NIN menggantikan lapisan konvolusi rangkaian neural konvolusi tradisional (CNN) dengan rangkaian saraf mikro dengan struktur kompleks. Ia menggunakan perceptron berbilang lapisan (MLPConv) memproses rangkaian saraf mikro dan lapisan pengumpulan purata global dan bukannya lapisan bersambung sepenuhnya. Seni bina NIN dalam boleh terdiri daripada berbilang superposisi struktur NIN.
Girshick et al (2014) mencadangkan rangkaian saraf konvolusi berasaskan wilayah (R- CNN ), menggunakan kawasan untuk pengiktirafan. R-CNN menggunakan kawasan untuk menyetempatkan dan membahagikan objek. Seni bina terdiri daripada tiga modul: cadangan wilayah bebas kelas yang mentakrifkan koleksi wilayah calon, rangkaian saraf konvolusional (CNN) besar yang mengekstrak ciri daripada wilayah dan satu set mesin vektor sokongan linear khusus kelas (SVM).
5.4.1 Fast R-CNN
Girshick (2015) mencadangkan Rangkaian konvolusi berasaskan wilayah pantas (Fast R-CNN). Kaedah ini memanfaatkan seni bina R-CNN untuk menghasilkan hasil dengan cepat. R-CNN Pantas terdiri daripada lapisan konvolusi dan gabungan, lapisan cadangan wilayah dan satu siri lapisan bersambung sepenuhnya.
5.4.2 R-CNN yang lebih pantas
Ren et al (2015) mencadangkan berasaskan wilayah yang lebih pantas Rangkaian Neural Konvolusi (R-CNN Lebih Cepat), yang menggunakan Rangkaian Cadangan Wilayah (RPN) untuk pengesanan sasaran masa nyata. RPN ialah rangkaian konvolusi sepenuhnya yang mampu menjana cadangan wilayah dengan tepat dan cekap (Ren et al., 2015).
5.4.3 Mask R-CNN
He Kaiming et al (2017) mencadangkan berasaskan wilayah mask Pembahagian objek contoh rangkaian Konvolusi (Mask R-CNN). Mask R-CNN memanjangkan seni bina R-CNN dan menggunakan cawangan tambahan untuk meramal topeng sasaran.
5.4.4 Multi-Expert R-CNN
Lee et al (2017) mencadangkan rantau-. Rangkaian saraf konvolusional berbilang pakar berasaskan (ME R-CNN) menggunakan seni bina R-CNN Pantas. ME R-CNN menjana kawasan minat (RoI) daripada carian terpilih dan menyeluruh. Ia juga menggunakan rangkaian berbilang pakar per-RoI dan bukannya rangkaian per-RoI tunggal. Setiap pakar adalah seni bina yang sama dengan lapisan bersambung sepenuhnya daripada Fast R-CNN.
Rangkaian sisa (ResNet) yang dicadangkan oleh He et al (2015) terdiri daripada 152 lapisan. ResNet mempunyai ralat yang rendah dan mudah dilatih melalui sisa pembelajaran. Deeper ResNet boleh mencapai prestasi yang lebih baik. Dalam bidang pembelajaran mendalam, ResNet dianggap sebagai kemajuan penting.
5.5.1 Resnet dalam Resnet
Targ et al (2016) dalam Resnet dalam Resnet (RiR) Dicadangkan untuk menggabungkan ResNets dan rangkaian neural convolutional standard (CNN) ke dalam seni bina dua aliran yang mendalam.
5.5.2 ResNeXt
Xie et al (2016) mencadangkan seni bina ResNeXt. ResNext memanfaatkan ResNets untuk menggunakan semula strategi split-transform-merge.
Sabour et al (2017) mencadangkan rangkaian kapsul (CapsNet), yang terdiri daripada dua lapisan konvolusi dan A seni bina lapisan bersambung sepenuhnya. CapsNet biasanya mengandungi berbilang lapisan konvolusi, dengan lapisan kapsul di hujungnya. CapsNet dianggap sebagai salah satu kejayaan terkini dalam pembelajaran mendalam kerana ia dikatakan berdasarkan batasan rangkaian saraf konvolusi. Ia menggunakan lapisan kapsul dan bukannya neuron. Kapsul peringkat rendah yang diaktifkan membuat ramalan, dan selepas bersetuju dengan pelbagai ramalan, kapsul peringkat lebih tinggi menjadi aktif. Mekanisme penghalaan protokol digunakan dalam lapisan kapsul ini. Hinton kemudiannya mencadangkan penghalaan EM, yang menambah baik CapsNet menggunakan algoritma pemaksimum jangkaan (EM).
Rangkaian Neural Berulang (RNN) lebih sesuai untuk input jujukan seperti pertuturan, teks dan jujukan yang dijana. Unit tersembunyi berulang apabila dibuka dalam masa boleh dianggap sebagai rangkaian suapan ke hadapan yang sangat mendalam dengan pemberat yang sama. RNN dahulunya sukar untuk dilatih kerana masalah letupan kecerunan dan dimensi yang hilang. Untuk menyelesaikan masalah ini, ramai orang kemudiannya mencadangkan penambahbaikan.
Goodfellow et al (2016) menyediakan analisis terperinci tentang perincian rangkaian dan seni bina saraf berulang dan berulang, serta rangkaian gating dan ingatan yang berkaitan.
Karpathy et al (2015) menggunakan model bahasa peringkat aksara untuk menganalisis dan menggambarkan ramalan, mencirikan dinamik latihan, jenis ralat RNN dan variannya (seperti LSTM), dsb.
J´ozefowicz et al (2016) meneroka batasan model RNN dan model bahasa.
5.7.1 RNN-EM
Peng dan Yao (2015) mencadangkan penggunaan memori luaran (RNN - EM) untuk meningkatkan keupayaan ingatan RNN. Mereka mendakwa mencapai prestasi terkini dalam pemahaman bahasa, lebih baik daripada RNN lain.
5.7.2 GF-RNN
Chung et al (2015) mencadangkan rangkaian saraf berulang berpagar ( GF-RNN), yang memanjangkan RNN standard dengan menindih berbilang lapisan berulang dengan unit gating global.
5.7.3 CRF-RNN
Zheng et al (2015) mencadangkan medan rawak bersyarat sebagai saraf berulang rangkaian (CRF-RNN), yang menggabungkan rangkaian saraf konvolusi (CNN) dan medan rawak bersyarat (CRF) untuk pemodelan grafik kemungkinan.
5.7.4 Quasi-RNN
Bradbury et al (2016) dicadangkan untuk pemodelan jujukan saraf dan selari aplikasi rangkaian neural kuasi berulang (QRNN) sepanjang langkah masa.
Weston et al (2014) mencadangkan rangkaian memori menjawab soalan (QA). Rangkaian memori terdiri daripada ingatan, pemetaan ciri input, generalisasi, pemetaan ciri output dan tindak balas.
5.8.1 Rangkaian Memori Dinamik
Kumar et al (2015) mencadangkan rangkaian memori dinamik untuk QA tugas Rangkaian Memori (DMN). DMN mempunyai empat modul: input, soalan, memori episodik dan output.
Olah and Carter (2016) menunjukkan perhatian dengan baik dan menambah rangkaian neural berulang, iaitu graf saraf NTM (NTM) , antara muka perhatian, pengekod saraf dan masa pengiraan adaptif. Rangkaian saraf sering dipertingkatkan menggunakan sifat tambahan seperti fungsi logistik serta seni bina rangkaian neural standard.
5.9.1 Mesin Turing Neural
Graves et al (2014) mencadangkan Mesin Turing Neural (NTM ) Seni bina terdiri daripada pengawal rangkaian saraf dan bank memori. NTM biasanya menggabungkan RNN dengan bank memori luaran.
5.9.2 GPU Neural
Kaiser dan Sutskever (2015) mencadangkan GPU neural untuk menyelesaikan masalah NTM Isu selari.
5.9.3 Mesin Capaian Rawak Neural
Kurach et al (2015) mencadangkan mesin akses rawak saraf, yang menggunakan memori capaian rawak saiz pembolehubah luaran.
5.9.4 Pengaturcara Neural
Neelakantan et al (2015) mencadangkan pengaturcara saraf, saraf Dipertingkat rangkaian dengan fungsi aritmetik dan logik.
5.9.5 Neural Programmer-Interpreter
Reed and de Freitas (2015) mencadangkan bahawa ia boleh mempelajari The Neural Programmer-Interpreter (NPI). NPI termasuk kernel berkala, memori program dan pengekod khusus domain.
Hochreiter dan Schmidhuber (1997) mencadangkan Memori Jangka Pendek Panjang (LSTM) ), mengatasi masalah aliran balik ralat rangkaian neural berulang (RNN). LSTM ialah algoritma pembelajaran berdasarkan rangkaian berulang dan berasaskan kecerunan LSTM memperkenalkan laluan penjanaan gelung kendiri untuk membolehkan kecerunan mengalir.
Greff et al (2017) menjalankan analisis berskala besar bagi LSTM standard dan 8 varian LSTM masing-masing untuk pengecaman pertuturan, pengecaman tulisan tangan dan pemodelan muzik polifonik. Mereka mendakwa bahawa 8 varian LSTM tidak menunjukkan peningkatan yang ketara, manakala hanya LSTM standard berprestasi baik.
Shi et al. (2016b) mencadangkan rangkaian ingatan jangka pendek yang mendalam (DLSTM), yang merupakan timbunan unit LSTM untuk perwakilan pembelajaran peta ciri.
5.10.1 LSTM yang dinormalkan kelompok
Cooijmans et al (2016) mencadangkan LSTM yang dinormalkan kelompok LSTM (BN-LSTM), yang menggunakan penormalan kelompok pada keadaan tersembunyi rangkaian saraf berulang.
5.10.2 Pixel RNN
van den Oord et al (2016b) mencadangkan Rangkaian Neural Berulang Pixel ( Pixel -RNN), yang terdiri daripada 12 lapisan LSTM dua dimensi.
5.10.3 LSTM Dwiarah
W¨ollmer et al (2010) mencadangkan LSTM dua hala (BLSTM ) Rangkaian berulang digunakan bersama-sama dengan rangkaian Bayesian dinamik (DBN) untuk pengesanan kata kunci sensitif konteks.
5.10.4 Bi-LSTM Variasi
Shabanian et al (2017) mencadangkan bi-LSTM variasi ( Variational Bi-LSTM), yang merupakan varian seni bina LSTM dwiarah. Bi-LSTM Variasional menggunakan pengekod auto variasi (VAE) untuk mencipta saluran pertukaran maklumat antara LSTM untuk mempelajari perwakilan yang lebih baik.
Wu et al (2016) mencadangkan sistem terjemahan automatik yang dipanggil Terjemahan Mesin Neural Google (GNMT) , sistem ini menggabungkan rangkaian pengekod, rangkaian penyahkod dan rangkaian perhatian, mengikut rangka kerja pembelajaran urutan-ke-jujukan yang biasa.
Lample et al (2017) mencadangkan Rangkaian Fader, yang merupakan seni bina penyahkod pengekod baharu. untuk menjana perubahan imej input yang realistik dengan menukar nilai atribut.
Rangkaian Hiper yang dicadangkan oleh Ha et al (2016) menjana pemberat untuk rangkaian neural lain, seperti rangkaian konvolusi rangkaian hiper statik, untuk rangkaian hiper dinamik berulang. rangkaian.
Deutsch(2018) Menjana rangkaian saraf menggunakan hypernetworks.
Srivastava et al (2015) mencadangkan Rangkaian Lebuhraya untuk belajar dengan menggunakan maklumat pengurusan unit berpagar. Aliran maklumat merentasi pelbagai peringkat dipanggil lebuh raya maklumat.
5.14.1 Rangkaian Lebuhraya Berulang
Zilly et al (2017) mencadangkan Rangkaian Lebuhraya Berulang (). RHN), yang memanjangkan seni bina ingatan jangka pendek panjang (LSTM). RHN menggunakan lapisan Lebuhraya dalam peralihan berkala.
Zhang et al (2016) cadangan Highway Long Short-Term Memory (HLSTM) RNN, yang memanjangkan a rangkaian LSTM dalam dengan sambungan arah tertutup (iaitu Lebuhraya) antara unit memori lapisan bersebelahan.
Donahue et al (2014) mencadangkan rangkaian konvolusi berulang jangka panjang (LRCN), yang menggunakan CNN untuk input , dan kemudian gunakan LSTM untuk melaksanakan pemodelan jujukan rekursif dan menjana ramalan.
Zhang et al (2015) mencadangkan Deep Neural SVM (DNSVM), yang berasaskan Mesin Vektor Sokongan (Mesin Vektor Sokongan (SVM) sebagai lapisan atas klasifikasi Rangkaian Neural Dalam (DNN).
Moniz dan Pal (2016) mencadangkan rangkaian memori sisa konvolusi, yang menggabungkan mekanisme memori dengan menjadi rangkaian neural convolutional (CNN). Ia menggunakan mekanisme ingatan jangka pendek yang panjang untuk meningkatkan rangkaian sisa konvolusi.
Larsson et al (2016) mencadangkan rangkaian fraktal, FractalNet, sebagai alternatif kepada rangkaian sisa. Mereka mendakwa dapat melatih rangkaian saraf ultra-dalam tanpa sisa pembelajaran. Fraktal ialah mengulangi seni bina yang dihasilkan oleh peraturan pengembangan mudah.
van den Oord et al (2016) mencadangkan WaveNet, rangkaian saraf dalam untuk menjana audio mentah. WaveNet terdiri daripada sekumpulan lapisan konvolusi dan lapisan pengedaran softmax untuk output.
Rethage et al (2017) mencadangkan model WaveNet untuk penyahucapan.
Vinyals et al (2017) mencadangkan rangkaian penunjuk (Ptr-Nets) dengan menggunakan kaedah yang dipanggil " The softmax taburan kebarangkalian "penunjuk" digunakan untuk menyelesaikan masalah mewakili kamus pembolehubah.
Dalam bahagian ini, kita akan membincangkan secara ringkas seni bina dalam lain yang menggunakan pelbagai abstraksi dan lapisan pembentangan yang serupa, juga dikenali sebagai model jana dalam (DGM). Bengio (2009) menerangkan seni bina dalam seperti mesin Boltzmann (BM) dan Mesin Boltzmann Terhad (RBM) dan variannya.
Goodfellow et al (2016) menerangkan secara terperinci model generatif dalam, seperti mesin Boltzmann terhad dan tidak terhad serta variannya, mesin Boltzmann dalam, rangkaian Kepercayaan mendalam (DBN), generatif terarah. rangkaian dan rangkaian rawak generatif, dsb.
Maaløe et al (2016) mencadangkan Model Generatif Dalam Auxiliary, di mana mereka melanjutkan model generatif dalam dengan pembolehubah tambahan. Pembolehubah bantu menjana taburan variasi menggunakan lapisan rawak dan langkau sambungan.
Rezende et al (2016) membangunkan generalisasi satu pukulan model generatif mendalam.
Mesin Boltzmann ialah kaedah penyambung untuk mempelajari pengagihan kebarangkalian sewenang-wenangnya, menggunakan Kajian prinsip kemungkinan maksimum.
Mesin Boltzmann Terhad (RBM) ialah Markov Jenis medan rawak khas yang mengandungi lapisan unit tersembunyi rawak , iaitu pembolehubah terpendam, dan lapisan pembolehubah yang boleh diperhatikan.
Hinton dan Salakhutdinov (2011) mencadangkan model generatif mendalam menggunakan mesin Boltzmann terhad (RBM) untuk pemprosesan dokumen.
Rangkaian Kepercayaan Dalam (DBN) mempunyai berbilang lapisan asas binari atau pembolehubah nyata Jana model.
Ranzato et al (2011) menggunakan rangkaian kepercayaan mendalam (DBN) untuk mewujudkan model generatif yang mendalam untuk pengecaman imej.
Tang et al (2012) mencadangkan Deep Lambertian Networks (DLN), yang merupakan generatif pelbagai peringkat model di mana pembolehubah asas adalah albedo, permukaan normal dan sumber cahaya. DLNis ialah gabungan pemantulan Lambertian dengan mesin Boltzmann terhad Gaussian dan rangkaian kepercayaan mendalam.
Goodfellow et al (2014) mencadangkan Generative Adversarial Nets (GAN) untuk lulus prosedur Adversarial untuk menilai model generatif. . Seni bina GAN terdiri daripada model generatif terhadap musuh (iaitu model pembelajaran atau model diskriminatif pengedaran data). Mao et al. (2016), Kim et al (2017) mencadangkan lebih banyak penambahbaikan kepada GAN.
Salimans et al (2016) mencadangkan beberapa kaedah untuk melatih GAN.
6.5.1 Laplacian Generative Adversarial Network
Denton et al (2015) mencadangkan model generatif Deep (. DGM), yang dipanggil Laplacian Generative Adversarial Networks (LAPGAN), menggunakan pendekatan Generative Adversarial Network (GAN). Model ini juga menggunakan rangkaian konvolusi dalam rangka kerja piramid Laplacian.
Shi et al (2016a) mencadangkan Mesin Vektor Sokongan Berulang (RSVM), menggunakan Rangkaian Neural Berulang ( RNN) mengekstrak ciri daripada jujukan input dan menggunakan mesin vektor sokongan standard (SVM) untuk pengecaman sasaran peringkat jujukan.
Dalam bahagian ini, kami akan menggariskan secara ringkas beberapa teknik utama yang digunakan untuk regularisasi dan pengoptimuman Deep Neural Rangkaian (DNN).
Srivastava et al (2014) mencadangkan Keciciran untuk mengelakkan rangkaian saraf daripada dipasang secara berlebihan. Keciciran ialah kaedah penyelarasan purata model rangkaian saraf dengan menambahkan hingar pada unit tersembunyinya. Semasa latihan, ia secara rawak menarik unit dan sambungan daripada rangkaian saraf. Keciciran boleh digunakan dalam model grafik seperti RBM (Srivastava et al., 2014) atau dalam sebarang jenis rangkaian saraf. Penambahbaikan yang dicadangkan baru-baru ini pada Keciciran ialah Fraternal Dropout untuk Rangkaian Neural Berulang (RNN).
Goodfellow et al (2013) mencadangkan Maxout, fungsi pengaktifan baharu untuk Dropout. Output Maxout ialah nilai maksimum set input, yang bermanfaat kepada purata model Dropout.
Krueger et al (2016) mencadangkan Zoneout, kaedah regularisasi untuk rangkaian saraf berulang (RNN). Zoneout secara rawak menggunakan bunyi semasa latihan, sama seperti Dropout, tetapi mengekalkan unit tersembunyi dan bukannya membuangnya.
He et al (2015) mencadangkan rangka kerja pembelajaran sisa yang mendalam, yang dipanggil Ralat ResNet latihan rendah.
Ioffe dan Szegedy (2015) mencadangkan penormalan kelompok dengan mengurangkan anjakan kovariat dalaman untuk mempercepatkan latihan rangkaian saraf dalam. Ioffe (2017) mencadangkan penormalan kelompok, yang melanjutkan kaedah sebelumnya.
Hinton et al (2015) mencadangkan untuk mengubah pengetahuan daripada koleksi model yang sangat teratur (iaitu rangkaian saraf) kepada. Kaedah untuk memampatkan model kecil.
Ba et al (2016) mencadangkan penormalan lapisan, terutamanya untuk rangkaian saraf dalam RNN Mempercepatkan latihan dan menyelesaikan masalah. batasan normalisasi kelompok.
Terdapat sejumlah besar perpustakaan dan rangka kerja sumber terbuka yang tersedia untuk pembelajaran mendalam. Kebanyakannya dibina untuk bahasa pengaturcaraan Python. Seperti Theano, Tensorflow, PyTorch, PyBrain, Caffe, Blocks and Fuel, CuDNN, Honk, ChainerCV, PyLearn2, Chainer, obor, dsb.
Dalam bahagian ini, kita akan membincangkan secara ringkas beberapa aplikasi cemerlang terkini dalam pembelajaran mendalam. Sejak permulaan pembelajaran mendalam (DL), kaedah DL telah digunakan secara meluas dalam pelbagai bidang dalam bentuk pembelajaran penyeliaan, tanpa penyeliaan, separa penyeliaan atau pengukuhan. Bermula dari tugas pengelasan dan pengesanan, aplikasi DL berkembang pesat ke setiap domain.
Contohnya:
Klasifikasi dan pengecaman imej
Klasifikasi video
Penjanaan jujukan
Klasifikasi kecacatan
Pemprosesan Teks, Pertuturan, Imej dan Video
Klasifikasi Teks
Pemprosesan Pertuturan
Pengecaman Pertuturan dan Pemahaman Bahasa Pertuturan
Teks -Penjanaan Pertuturan
Klasifikasi Pertanyaan
Klasifikasi Ayat
Pemodelan Ayat
pemprosesan leksikal
Pra-pilihan
Pemprosesan Dokumen dan Ayat
Jana kapsyen imej
Pemindahan gaya foto
Rangkap imej semula jadi
Pewarna imej
Soal Jawab imej
Jana imej bertekstur dan digayakan
Soal Jawab visual dan tekstual
Pengenalpastian dan penerangan visual
Pengecaman objek
Pemprosesan dokumen
Sintesis dan Penyuntingan Tindakan Orang
Sintesis Lagu
Pengecaman Identiti
Pengecaman Wajah dan Pengesahan
Pengiktirafan Tindakan Video
Penglihatan Mudah Alih
Agen Perbualan
Memanggil Variasi Genetik
Pengesanan Kanser
Pembinaan Semula X-Ray CT
Sawan Ramalan
Pecutan Perkakasan
Robot
dsb.
Deng dan Yu (2014) menyediakan senarai terperinci aplikasi DL dalam pemprosesan pertuturan, pencarian maklumat, pengecaman objek, penglihatan komputer, multi-modal, pembelajaran pelbagai tugas dan bidang lain.
Menggunakan Deep Reinforcement Learning (DRL) untuk menguasai permainan telah menjadi topik hangat hari ini. Sesekali, robot AI dicipta menggunakan DNN dan DRL yang menewaskan juara dunia manusia dan guru besar catur dalam strategi dan permainan lain, bermula dengan hanya beberapa jam latihan. Contohnya, AlphaGo dan AlphaGo Zero Go.
Walaupun pembelajaran mendalam telah mencapai kejayaan besar dalam banyak bidang, ia masih jauh lagi. Masih banyak bidang yang perlu diperbaiki. Mengenai batasan, terdapat beberapa contoh. Contohnya: Nguyen et al menunjukkan bahawa rangkaian saraf dalam (DNN) mudah tertipu apabila mengenali imej. Terdapat isu lain seperti kebolehpindahan ciri yang dipelajari yang dicadangkan oleh Yosinski et al. Huang et al mencadangkan seni bina untuk pertahanan serangan rangkaian saraf dan berpendapat bahawa kerja masa depan diperlukan untuk bertahan daripada serangan ini. Zhang et al mencadangkan rangka kerja eksperimen untuk memahami model pembelajaran mendalam. Mereka percaya bahawa memahami pembelajaran mendalam memerlukan pemikiran semula dan generalisasi.
Marcus menjalankan semakan penting pada 2018 tentang peranan, batasan dan sifat Pembelajaran Dalam (DL). Beliau dengan tegas menyatakan batasan kaedah DL, yang memerlukan lebih banyak data, mempunyai kapasiti terhad, tidak boleh mengendalikan hierarki, tidak boleh melakukan penaakulan terbuka, tidak boleh telus sepenuhnya, tidak boleh berintegrasi dengan pengetahuan sedia ada, dan tidak boleh membezakan sebab dan akibat. Beliau juga menyebut bahawa DL menganggap dunia yang stabil, dilaksanakan dengan cara anggaran, sukar untuk direkayasa, dan mempunyai potensi risiko over-hyping. Marcus percaya bahawa DL perlu dikonseptualisasikan semula dan mencari kemungkinan dalam pembelajaran tanpa pengawasan, manipulasi simbolik dan model hibrid, mendapatkan cerapan daripada sains kognitif dan psikologi, dan mengambil cabaran yang lebih berani.
Walaupun pembelajaran mendalam (DL) memajukan dunia lebih pantas berbanding sebelum ini, masih terdapat banyak aspek yang bernilai. belajar. Kami masih tidak memahami sepenuhnya pembelajaran mendalam, bagaimana kami boleh menjadikan mesin lebih pintar, lebih dekat atau lebih pintar daripada manusia, atau belajar seperti manusia. DL telah menyelesaikan banyak masalah sambil menggunakan teknologi untuk segala-galanya. Tetapi manusia masih menghadapi banyak masalah, seperti orang yang masih mati akibat kelaparan dan krisis makanan, kanser dan penyakit maut lain. Kami berharap pembelajaran mendalam dan kecerdasan buatan akan menjadi lebih berdedikasi untuk meningkatkan kualiti kehidupan manusia dengan menjalankan penyelidikan saintifik yang paling sukar. Akhir sekali, semoga dunia kita menjadi tempat yang lebih baik.
Atas ialah kandungan terperinci Kajian mendalam 10,000 perkataan yang sesuai untuk orang baru. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!