Penterjemah |. Li Rui
Pengulas | 🎜>bermain catur
, tetapi dia bukan manusia , tetapi seorang yang tidak memahami peraturan permainan Program komputer. Tetapi aplikasi ini memahami bahawa ia komited untuk mencapai satu matlamat, iaitu untuk mendapatkan dalam permainan Menang. Oleh kerana program komputer tidak tahu peraturan, gerakan yang mula bermain catur adalah rawak. Beberapa
helah tidak masuk akal sama sekali dan mudah untuk anda menang. Katakan anda seronok bermain catur dengan rakan ini sehingga anda ketagih dengan permainan itu. Tetapi program komputer akhirnya akan menang
kerana secara beransur-ansur akan belajar untuk mengalahkan Kaedah dan helah anda adalah nombor. Walaupun senario hipotesis ini bagi mungkin kelihatan tidak masuk akal, ia sepatutnya memberi anda gambaran umum tentang cara pembelajaran pengukuhan (bidang pembelajaran mesin) berfungsi Pemahaman asas. Seberapa pintarkah pembelajaran pengukuhan? , keinginan untuk mengembangkan kebolehan intelek dan pemikiran intuitif. Kepintaran manusia diragui apabila juara catur Garry Kasparov tewas kepada komputer IBM bernama Deep Blue. Selain menarik perhatian orang ramai, senario apokaliptik yang menggambarkan masa depan di mana robot memerintah manusia juga telah mendominasi kesedaran arus perdana.
Namun , "Deep Blue"bukanlah lawan biasa. Bermain catur dengan program pengiraan
iniini seperti bermain dengan anak berusia ribuan tahun orang Bermain permainan, dan dia telah bermain catur tanpa henti sepanjang hidupnya . Tetapi "Deep Blue" pandai bermain permainan tertentu, berbanding aktiviti intelektual lain, seperti bermain alat muzik, menulis buku, menjalankan eksperimen Sains, membesarkan anak atau membaiki kereta anda. Ini pastinya tidak bermaksud untuk memperlekehkan apa yang ada pada "Deep Blue" mencapai pencapaian
.Bertentangan dengan , idea komputer mengatasi manusia dalam keupayaan intelek memerlukan pemeriksaan yang teliti, bermula dengan analisis mekanisme kerja pembelajaran pengukuhan. Cara Pembelajaran Peneguhan BerfungsiSeperti yang dinyatakan dalam pada , Pembelajaran Peneguhan ialah subset pembelajaran mesin
, yang melibatkan konsep bagaimana ejen pintar bertindak dalam persekitaran untuk memaksimumkan ganjaran terkumpul. Ringkasnya, pembelajaran pengukuhanrobot dilatih dengan mekanisme ganjaran dan hukuman, mereka membuat tindakan yang betul Dapatkan ganjaran , buat tindakan yang salah dan anda akan dihukum. Pembelajaran PengukuhanRobot tidak "berfikir" cara untuk mengambil tindakan yang lebih baik , Mereka hanya membuat semua tindakan mungkin untuk memaksimumkan peluang kejayaan. Kelemahan utama pembelajaran peneguhan ialah ia memerlukan penggunaan sejumlah besar sumber untuk mencapai matlamatnya. Kejayaan pembelajaran pengukuhan dalam permainan Go menggambarkan perkara ini. Ini ialah permainan dua pemain yang popular di mana matlamatnya adalah untuk menduduki kawasan maksimum di papan menggunakan kepingan anda sambil mengelakkan kehilangan kepingan. AlphaGo Master ialah program komputer yang mengalahkan pemain manusia dalam permainan Go Ia menggunakan banyak wang dan tenaga kerja, termasuk ramai jurutera, permainan yang sangat Kaya pengalaman dengan 256 GPU dan 128,000 CPU. Dalam proses mempelajari cara memenangi permainan, banyak sumber dan tenaga perlu dilaburkan. Ini menimbulkan persoalan: Adakah munasabah untuk mereka bentuk kecerdasan buatan yang tidak boleh berfikir secara intuitif, bukankah seharusnya penyelidikan kecerdasan buatan cuba meniru kecerdasan manusia Tetulang sokongan? Satu hujah untuk pembelajaran ialah seseorang tidak seharusnya mengharapkan sistem AI bertindak seperti manusia, dan penggunaannya dalam menyelesaikan masalah yang kompleks memerlukan pembangunan selanjutnya. Sebaliknya, hujah terhadap pembelajaran pengukuhan ialah penyelidikan AI harus menumpukan pada mendapatkan mesin untuk melakukan perkara yang hanya manusia dan haiwan mampu lakukan pada masa ini. Dari perspektif ini, perbandingan antara kecerdasan buatan dan kecerdasan manusia adalah sesuai. Pembelajaran peneguhan merupakan satu bidang yang baru muncul yang dikatakan mampu menyelesaikan beberapa masalah di atas. Pembelajaran pengukuhan kuantum (QRL) ialah kaedah mempercepatkan pengkomputeran. Pertama, pembelajaran peneguhan kuantum (QRL) harus mempercepatkan pembelajaran dengan mengoptimumkan fasa penerokaan (menemui strategi) dan eksploitasi (memilih strategi terbaik). Beberapa aplikasi semasa dan pengkomputeran kuantum yang dicadangkan meningkatkan carian pangkalan data, memfaktorkan nombor besar kepada nombor perdana dan banyak lagi. Walaupun pembelajaran peneguhan kuantum (QRL) tidak muncul secara terobosan, ia memegang janji untuk menyelesaikan beberapa cabaran utama pembelajaran pengukuhan konvensional. Seperti yang dinyatakan di atas, penyelidikan dan Pembangunan pembelajaran pengukuhan adalah penting . Berikut ialah beberapa contoh praktikal pembelajaran pengukuhan daripada tinjauan McKinsey & Company: Kuasa pembelajaran peneguhan mungkin terhad, tetapi ia tidak boleh dipandang terlalu tinggi. Selain itu, apabila projek penyelidikan dan pembangunan pembelajaran pengukuhan meningkat, begitu juga kes penggunaan yang berpotensi dalam hampir setiap sektor ekonomi. Penggunaan pembelajaran tetulang berskala besar bergantung pada beberapa faktor, termasuk reka bentuk algoritma optimum, persekitaran pembelajaran terkonfigurasi dan ketersediaan kuasa pengkomputeran. Tajuk asal: Adakah pembelajaran pengukuhan berlebihan? , Pengarang: Aleksandras Šulženko Kelemahan pembelajaran peneguhan
Pembelajaran peneguhan kuantum
Kes Perniagaan untuk Pembelajaran Pengukuhan
Refleksi Pembelajaran Pengukuhan
Atas ialah kandungan terperinci Adakah pembelajaran pengukuhan berlebihan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!