Dalam data siri masa, terdapat kebergantungan antara pemerhatian, jadi mereka tidak bebas antara satu sama lain. Walau bagaimanapun, rangkaian saraf tradisional menganggap setiap pemerhatian sebagai bebas, yang mengehadkan keupayaan model untuk memodelkan data siri masa. Untuk menyelesaikan masalah ini, Rangkaian Neural Berulang (RNN) telah diperkenalkan, yang memperkenalkan konsep ingatan untuk menangkap ciri dinamik data siri masa dengan mewujudkan kebergantungan antara titik data dalam rangkaian. Melalui sambungan berulang, RNN boleh menghantar maklumat sebelumnya ke dalam pemerhatian semasa untuk meramalkan nilai masa hadapan dengan lebih baik. Ini menjadikan RNN alat yang berkuasa untuk tugasan yang melibatkan data siri masa.
Tetapi bagaimanakah RNN mencapai ingatan seperti ini?
RNN merealisasikan ingatan melalui gelung maklum balas dalam rangkaian saraf, yang merupakan perbezaan utama antara RNN dan rangkaian neural tradisional. Gelung maklum balas membenarkan maklumat dihantar dalam lapisan, manakala rangkaian saraf suapan hadapan mempunyai maklumat yang dihantar hanya antara lapisan. Oleh itu, terdapat pelbagai jenis RNN:
Artikel ini akan memperkenalkan RNN , LSTM Konsep, persamaan dan perbezaan antara GRU dan GRU, serta beberapa kelebihan dan kekurangannya.
Melalui gelung maklum balas, output unit RNN juga digunakan sebagai input oleh unit yang sama. Oleh itu, setiap RNN mempunyai dua input: masa lalu dan sekarang. Menggunakan maklumat lepas mencipta ingatan jangka pendek.
Untuk pemahaman yang lebih baik, gelung maklum balas unit RNN boleh dikembangkan. Panjang sel yang dikembangkan adalah sama dengan bilangan langkah masa urutan input.
Anda boleh melihat bagaimana pemerhatian lalu dilalui melalui rangkaian terungkap sebagai keadaan tersembunyi. Dalam setiap sel, input daripada langkah masa semasa, keadaan tersembunyi daripada langkah masa sebelumnya dan pincang digabungkan dan kemudian dikekang melalui fungsi pengaktifan untuk menentukan keadaan tersembunyi pada langkah masa semasa.
RNN boleh digunakan untuk ramalan satu-dengan-satu, satu-ke-banyak, ramai-ke-satu dan banyak-ke-banyak.
Berkat ingatan jangka pendeknya, RNN boleh memproses data berjujukan dan mengenal pasti corak dalam data sejarah. Selain itu, RNN mampu mengendalikan input dengan panjang yang berbeza.
RNN mengalami masalah penurunan kecerunan yang hilang. Dalam kes ini, kecerunan yang digunakan untuk mengemas kini pemberat semasa perambatan belakang menjadi sangat kecil. Mendarab pemberat dengan kecerunan menghampiri sifar menghalang rangkaian daripada mempelajari pemberat baharu. Menghentikan pembelajaran menyebabkan RNN melupakan apa yang telah dilihatnya dalam urutan yang lebih panjang. Masalah penurunan kecerunan yang lenyap meningkat dengan bilangan lapisan rangkaian.
Memandangkan RNN hanya mengekalkan maklumat terkini, model ini menghadapi masalah apabila mempertimbangkan pemerhatian lepas. Oleh itu, RNN hanya mempunyai ingatan jangka pendek dan tiada ingatan jangka panjang.
Di samping itu, memandangkan RNN menggunakan perambatan belakang untuk mengemas kini pemberat dalam masa, rangkaian juga akan mengalami letupan kecerunan, dan jika fungsi pengaktifan ReLu digunakan, ia akan terjejas oleh unit ReLu yang mati. Yang pertama mungkin menyebabkan masalah penumpuan, manakala yang kedua mungkin menyebabkan pembelajaran terhenti.
Keadaan tersembunyi langkah masa semasa ditentukan berdasarkan dua langkah:
Pertama, tentukan keadaan tersembunyi calon. Keadaan calon ialah gabungan input semasa dan keadaan tersembunyi langkah masa sebelumnya dan fungsi pengaktifan. Pengaruh keadaan tersembunyi sebelumnya pada keadaan tersembunyi calon dikawal oleh get set semula.
Langkah kedua ialah menggabungkan keadaan tersembunyi calon dengan keadaan tersembunyi langkah masa sebelumnya untuk menjana keadaan tersembunyi semasa. Cara keadaan tersembunyi sebelumnya dan keadaan tersembunyi calon digabungkan ditentukan oleh get kemas kini.
Jika nilai yang diberikan oleh get kemas kini ialah 0, keadaan tersembunyi sebelumnya diabaikan sepenuhnya dan keadaan tersembunyi semasa adalah sama dengan keadaan tersembunyi calon. Jika gerbang kemas kini memberikan nilai 1, sebaliknya adalah benar.
Disebabkan seni binanya yang lebih ringkas berbanding LSTM, GRU lebih cekap dari segi pengiraan, lebih pantas untuk dilatih dan memerlukan kurang memori.
Selain itu, GRU telah terbukti lebih cekap untuk jujukan yang lebih kecil.
Oleh kerana GRU tidak mempunyai keadaan tersembunyi dan keadaan sel yang berasingan, mereka mungkin tidak dapat mengambil kira pemerhatian lepas seperti LSTM.
Serupa dengan RNN dan LSTM, GRU juga mungkin mengalami kekurangan perambatan belakang untuk mengemas kini pemberat dalam masa, iaitu unit ReLu mati dan letupan kecerunan.
Atas ialah kandungan terperinci Terokai konsep, perbezaan, kebaikan dan keburukan RNN, LSTM dan GRU. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!