Mempelajari pelbagai tugas dalam persekitaran terbuka ialah keupayaan penting ejen tujuan am. Sebagai permainan dunia terbuka yang popular, Minecraft mempunyai dunia kompleks yang tidak terhingga dan sejumlah besar tugas terbuka Ia telah menjadi persekitaran ujian yang penting untuk penyelidikan pembelajaran terbuka dalam beberapa tahun kebelakangan ini.
Mempelajari tugas yang kompleks dalam Minecraft ialah cabaran besar untuk algoritma pembelajaran pengukuhan semasa. Di satu pihak, ejen mencari sumber melalui pemerhatian tempatan dalam dunia yang tidak terhingga dan menghadapi kesukaran penerokaan. Sebaliknya, tugas yang rumit selalunya memerlukan masa pelaksanaan yang panjang dan memerlukan penyiapan banyak subtugas tersirat. Sebagai contoh, membuat beliung batu melibatkan lebih daripada sepuluh sub-tugas seperti menebang pokok, membuat beliung kayu, dan menggali batu kasar, dsb., yang memerlukan ejen melakukan beribu-ribu langkah untuk menyelesaikannya. Ejen hanya boleh menerima ganjaran apabila menyelesaikan tugasan, dan sukar untuk mempelajari tugas melalui ganjaran yang jarang.
Gambar: Proses membuat beliung batu dalam Minecraft.
Penyelidikan semasa mengenai pertandingan perlombongan berlian MineRL umumnya menggunakan set data yang ditunjukkan oleh pakar, manakala penyelidikan seperti VPT menggunakan sejumlah besar strategi pembelajaran data berlabel. Dengan ketiadaan set data tambahan, tugas melatih Minecraft dengan pembelajaran pengukuhan adalah sangat tidak cekap. MineAgent hanya boleh menyelesaikan beberapa tugas mudah menggunakan algoritma PPO; kaedah SOTA berasaskan model Dreamer-v3 juga perlu mencuba 10 juta langkah untuk belajar mendapatkan batu kasar apabila memudahkan simulator persekitaran.
Pasukan dari Universiti Peking dan Institut Penyelidikan Kecerdasan Buatan Zhiyuan Beijing mencadangkan kaedah untuk menyelesaikan multitasking Minecraft dengan cekap tanpa data pakar, Plan4MC . Penulis menggabungkan kaedah pembelajaran dan perancangan pengukuhan untuk menguraikan penyelesaian tugasan yang kompleks kepada dua bahagian: pembelajaran kemahiran asas dan perancangan kemahiran. Penulis menggunakan kaedah pembelajaran peneguhan ganjaran intrinsik untuk melatih tiga jenis kemahiran asas yang halus. Ejen menggunakan model bahasa yang besar untuk membina graf hubungan kemahiran, dan mendapatkan perancangan tugas melalui carian pada graf. Dalam bahagian percubaan, Plan4MC pada masa ini boleh menyelesaikan 24 tugas yang kompleks dan pelbagai, dan kadar kejayaan telah dipertingkatkan dengan banyaknya berbanding semua kaedah asas.
Dalam Minecraft, pemain boleh memperoleh ratusan item melalui penerokaan. Tugasan ditakrifkan sebagai gabungan keadaan awal dan item sasaran, contohnya, "Memulakan
meja kerja, dapatkan daging lembu yang telah dimasak". Menyelesaikan tugasan ini termasuk langkah-langkah seperti "dapatkan daging lembu" dan "membuat relau dengan meja kerja dan batu kasar ini dipanggil kemahiran". Manusia memperoleh dan menggabungkan kemahiran sedemikian untuk menyelesaikan pelbagai tugas di dunia, dan bukannya mempelajari setiap tugas secara bebas. Matlamat Plan4MC adalah untuk mempelajari strategi untuk menguasai sebilangan besar kemahiran dan kemudian menggabungkan kemahiran ke dalam tugas melalui perancangan.
Pengarang membina 24 tugasan ujian pada simulator MineDojo, yang merangkumi pelbagai tingkah laku (memotong pokok, menggali batu kasar, berinteraksi dengan haiwan), pelbagai rupa bumi, dan melibatkan 37 Kemahiran asas. Berpuluh-puluh langkah set kemahiran dan beribu-ribu langkah interaksi persekitaran diperlukan untuk menyelesaikan tugasan individu.
Rajah: Tetapan untuk 24 tugasan
Kemahiran Belajar
Oleh kerana pembelajaran pengukuhan menyukarkan pemain untuk berlari dan meneroka dunia secara besar-besaran semasa latihan, banyak kemahiran masih tidak dapat dikuasai. Penulis mencadangkan untuk memisahkan langkah penerokaan dan pencarian, dan seterusnya memperhalusi kemahiran "memotong pokok" kepada "mencari pokok" dan "mendapatkan kayu". Semua kemahiran dalam Minecraft dibahagikan kepada tiga kategori kemahiran asas halus:
Untuk setiap jenis kemahiran, pengarang mereka bentuk model pembelajaran pengukuhan dan ganjaran intrinsik untuk pembelajaran yang cekap. Kemahiran mencari menggunakan strategi hierarki, di mana strategi peringkat atas bertanggungjawab untuk memberikan lokasi sasaran dan meningkatkan julat penerokaan, dan strategi peringkat bawah bertanggungjawab untuk mencapai lokasi sasaran. Kemahiran operasi dilatih menggunakan algoritma PPO digabungkan dengan ganjaran intrinsik model MineCLIP. Kemahiran sintetik hanya menggunakan satu tindakan untuk diselesaikan. Pada simulator MineDojo yang tidak diubah suai, mempelajari semua kemahiran hanya memerlukan 6.5 juta langkah untuk berinteraksi dengan persekitaran.
Algoritma Perancangan
Kemahiran Penggunaan Plan4MC Rancang kebergantungan antara mereka Sebagai contoh, terdapat hubungan berikut antara mendapatkan beliung batu dan mendapatkan batu mentah, kayu kayu, meja kerja yang diletakkan dan kemahiran lain.
Pengarang menjana hubungan antara semua kemahiran dan membina kemahiran dengan berinteraksi dengan model bahasa besar ChatGPT diarahkan graf asiklik. Algoritma perancangan ialah carian mendalam-pertama pada graf kemahiran, seperti yang ditunjukkan dalam rajah di bawah.
Berbanding dengan Monolog Dalaman, DEPS dan kaedah perancangan interaktif lain dengan model bahasa besar, Plan4MC boleh mengelakkan model bahasa besar dengan berkesan Ralat semasa perancangan model.
Dalam kajian kemahiran belajar, penulis memperkenalkan konsep tidak melakukan MineAgent untuk penguraian tugas, dan Plan4MC w/o Find-skill, percubaan ablasi yang tidak memecahkan kemahiran carian. Jadual 2 menunjukkan bahawa Plan4MC dengan ketara mengatasi kaedah asas pada ketiga-tiga set tugasan. Prestasi MineAgent hampir dengan Plan4MC dalam tugas mudah seperti memerah susu lembu dan mencukur biri-biri, tetapi ia tidak dapat menyelesaikan tugas seperti menebang pokok dan menggali batu kasar yang sukar diterokai. Kaedah tanpa pembahagian kemahiran mempunyai kadar kejayaan yang lebih rendah daripada Plan4MC pada semua tugas.
Rajah 3 menunjukkan bahawa dalam proses menyiapkan tugasan, setiap kaedah mempunyai perbezaan yang besar dalam peringkat pencarian sasaran. Kebarangkalian kegagalan membawa kepada penurunan dalam keluk kadar kejayaan. Kebarangkalian kegagalan kaedah tanpa pembahagian kemahiran pada peringkat ini adalah jauh lebih tinggi daripada Plan4MC.
Dalam penyelidikan mengenai perancangan, penulis memperkenalkan LLM Interaktif, kaedah asas untuk perancangan interaktif menggunakan ChatGPT, serta dua eksperimen ablasi: kaedah Zero-shot yang tidak merancang semula apabila pelaksanaan kemahiran gagal dan penggunaan kaedah separuh 1/2 langkah untuk bilangan maksimum langkah interaksi. Jadual 2 menunjukkan bahawa LLM Interaktif melakukan hampir dengan Plan4MC pada set tugas berinteraksi dengan haiwan, tetapi berprestasi buruk pada dua set tugas lain yang memerlukan lebih banyak langkah perancangan. Kaedah sifar pukulan berprestasi buruk pada semua tugas. Kadar kejayaan menggunakan separuh daripada bilangan langkah tidak jauh lebih rendah daripada Plan4MC Nampaknya Plan4MC boleh menyelesaikan tugas dengan cekap dengan langkah yang lebih sedikit.
Pengarang mencadangkan Plan4MC, yang menggunakan pembelajaran dan perancangan pengukuhan untuk menyelesaikan pelbagai tugas dalam Minecraft. Untuk menyelesaikan masalah kesukaran penerokaan dan kecekapan sampel, penulis menggunakan pembelajaran pengukuhan dengan ganjaran intrinsik untuk melatih kemahiran asas, dan menggunakan model bahasa yang besar untuk membina graf kemahiran untuk perancangan tugas. Penulis mengesahkan kelebihan Plan4MC berbanding pelbagai kaedah asas termasuk ChatGPT pada sejumlah besar tugas Minecraft yang sukar.
Kesimpulan: Kemahiran pembelajaran pengukuhan + model bahasa besar + perancangan tugas memungkinkan untuk melaksanakan model membuat keputusan manusia System1/2 yang diterangkan oleh Daniel Kahneman.
Atas ialah kandungan terperinci Gunakan ChatGPT dan pembelajaran pengukuhan untuk bermain 'Minecraft', Plan4MC mengatasi 24 tugas yang kompleks. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!