Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Keupayaan kecerdasan am AI bukan di luar jangkauan. Agen berasaskan LLM tidak lagi memerlukan bantuan penyelia manusia dan mula mencapai "evolusi diri"! Selepas mempelajari trajektori pakar, ejen ini telah memperoleh keupayaan umum asas, boleh meneroka dan belajar dalam persekitaran dan tugas yang tidak diketahui yang lebih luas dan realistik, dan terus memperbaiki dirinya di bawah maklum balas luaran. Baru-baru ini, platform AgentGym yang dilancarkan oleh Pasukan Bahasa dan Visi Universiti Fudan telah membuka keseluruhan proses "persampelan data, latihan penalaan halus, evolusi kendiri dan penilaian keupayaan" untuk model bahasa yang besar ejen. Berdasarkan algoritma AgentEvol yang dicadangkan oleh platform ini, keupayaan evolusi diri ejen am telah diterokai buat kali pertama, dan ia berfungsi dengan sangat baik pada beberapa tugas ejen, setanding dengan model SOTA seperti GPT-4 dan Claude.
- Pautan kertas: https://arxiv.org/abs/2406.04151
-
Repositori kod AgenGym: https://WooooDymy
/AgentGym
Latar Belakang Penyelidikan
Membangunkan ejen tujuan am pelbagai tugas yang boleh menyelesaikan dan menyesuaikan diri dengan tugas yang kompleks telah menjadi matlamat penting komuniti kecerdasan buatan sejak sekian lama.
Sama seperti proses pembelajaran manusia, agen tujuan am dahulu mula belajar ilmu dan kemahiran paling asas melalui peniruan
Dengan penguasaan keupayaan asas, kami bukan sahaja menjangkakan bahawa ejen boleh terus belajar dan menyesuaikan diri dengan banyak tugas yang sebelum ini tidak dilihat melalui interaksi dengan persekitaran yang berbeza
, tetapi juga belajar daripada pengalaman sendiri dan maklum balas luaran Kaya dalam kebijaksanaan dan membangunkan tahap tertentu keupayaan generalisasi (Rajah 1). Rajah 1: Gambarajah skematik agen tujuan am asas yang merealisasikan "evolusi diri". Ejen mula-mula melakukan pengklonan tingkah laku di bawah pengawasan manusia, dan kemudian meneroka dan belajar dalam persekitaran dan tugas luaran yang berbeza untuk mencapai evolusi diri. Dengan keupayaan amnya yang sangat baik, model bahasa yang besar dianggap sebagai salah satu asas penting untuk membina agen pintar tersebut. Bidang penyelidikan semasa sedang diterokai di sepanjang dua hala tuju utama untuk memacu pembangunan lanjut teknologi ejen.
- Kaedah Pengklonan Tingkah Laku yang bergantung pada pengawasan manusia memerlukan ejen meniru data trajektori yang disediakan oleh pakar secara beransur-ansur. Walaupun kaedah ini berkesan, ia sukar untuk dikembangkan kerana keterbatasan sumber anotasi. Penerokaan alam sekitar juga agak terhad, dan mudah untuk menghadapi kesesakan prestasi atau generalisasi.
Kaedah memperbaiki diri yang membolehkan ejen terus meningkatkan keupayaan mereka berdasarkan maklum balas alam sekitar, mengurangkan pergantungan pada penyeliaan manusia sambil memperkayakan kedalaman penerokaan alam sekitar. Walau bagaimanapun, mereka biasanya dilatih dalam persekitaran terpencil untuk tugas tertentu, menghasilkan kumpulan ejen pakar yang tidak dapat membuat generalisasi dengan berkesan.
Menghadapi cabaran di atas, penulis meneroka buat julung kalinya potensi
ejen tujuan am dengan keupayaan asas untuk berkembang diri dalam pelbagai persekitaran dan tugas.
Untuk mencapai matlamat penyelidikan ini, penulis mengenal pasti "tiga tunjang utama" yang menggalakkan evolusi diri ejen pintar ini adalah elemen teras penyelidikan. Persekitaran dan tugas yang pelbagai membolehkan ejen berinteraksi dan berlatih secara dinamik dan menyeluruh, dan bukannya terhad kepada persekitaran terpencil.
- Set data trajektori bersaiz sesuai membantu ejen melengkapkan dirinya dengan arahan asas mengikut kebolehan dan pengetahuan tugas asas.
- Algoritma evolusi yang berkesan dan berskala yang merangsang keupayaan generalisasi agen dalam persekitaran kesukaran yang berbeza.
Rajah 2: Gambarajah skematik platform AgentGym. Platform ini merangkumi sejumlah 14 persekitaran merentas kategori berbeza, setiap satu digunakan sebagai perkhidmatan HTTP. Pelanggan menyediakan antara muka bersatu terkapsul untuk ejen untuk memudahkan interaksi dengan persekitaran. Melalui kaedah AgentEvol, penulis meneroka evolusi diri ejen dalam persekitaran dan tugas yang berbeza. Selain itu, platform ini menyediakan set ujian AgentEval untuk menjalankan penilaian keupayaan komprehensif ejen. . platform interaktif (Rajah 2) menyediakan sokongan untuk latihan ejen model bahasa yang besar. Platform ini berdasarkan perkhidmatan HTTP dan menyediakan antara muka API bersatu untuk persekitaran yang berbeza, menyokong pensampelan trajektori, interaksi berbilang pusingan, penilaian dalam talian dan maklum balas masa nyata. "AgentEval", penanda aras ujian ejen yang mencabar. "AgentTraj" dan "AgentTraj-L" ialah set data trajektori pakar yang dibina melalui peningkatan arahan dan anotasi model crowdsourcing/SOTA. Selepas penyatuan format dan penapisan data, ia membantu ejen mempelajari kebolehan menyelesaikan tugasan kompleks asas.
"AgentEvol", algoritma baharu yang merangsang evolusi diri ejen merentas persekitaran. Motivasi algoritma ini adalah untuk mengharapkan ejen menjalankan penerokaan autonomi apabila berhadapan dengan tugasan dan arahan yang tidak kelihatan sebelum ini, dan untuk belajar dan mengoptimumkan daripada pengalaman baharu.
-
Platform AgentGym ialah rangka kerja serba baharu yang menyokong pensampelan trajektori ejen model bahasa yang besar, evolusi kendiri dan penilaian keupayaan Ia dicirikan dengan menyediakan maklum balas format yang pelbagai, masa nyata, serentak dan bersatu. Ia bertujuan untuk membantu komuniti kecerdasan buatan meneroka dengan lebih mudah ejen berasaskan LLM dengan keupayaan umum.
- AgentGym - platform ejen bersepadu untuk latihan dan penilaian interaktif
AgentGym menyepadukan berbilang persekitaran, data trajektori yang kaya dan ujian penanda aras yang komprehensif. Ia memudahkan proses konfigurasi persekitaran melalui antara muka operasi persekitaran bersatu. Khususnya, AgentGym mempunyai ciri-ciri berikut: Persekitaran yang pelbagai:
AgentGym mengandungi 14 persekitaran dan 89 tugasan, meliputi navigasi web dan permainan perkataan, dan penjelmaan alat, permainan kata dan kod. Sama ada anda berdedikasi untuk membina Agen Khusus Tugas atau Agen Berkebolehan Umum universal, rangka kerja AgentGym boleh memberikan sokongan yang sepadan. Antaranya, setiap persekitaran digunakan secara berasingan
, yang mengelakkan konflik pergantungan antara persekitaran yang berbeza dan memastikan kebolehskalaan platform. Contohnya, persekitaran WebShop, platform interaktif untuk tugasan membeli-belah dalam talian, boleh digunakan dengan mudah dengan hanya satu baris arahan.
Data trajektori AgentGym menggunakan format ReAct bersatu, yang menggabungkan langkah-langkah penaakulan dan urutan tindakan melalui "Thought-Action" atas kiri data trajektori. Platform membina satu set arahan 20509
melalui pengumpulan dan penambahbaikan arahan yang meluas, dan memilih 1160 arahan dengan kepelbagaian daripadanya untuk membina set ujian penanda aras AgentEval untuk penilaian ejen komprehensif berdasarkan LLM.
Pada masa yang sama, pengarang menggunakan GPT-4-Turbo dan anotasi crowdsourcing untuk mengumpul data trajektori, dan menapisnya dengan ketat berdasarkan ganjaran atau ketepatan untuk membina AgentTraj, koleksi 6130 trajektori berkualiti tinggi. Untuk menunjukkan potensi prestasi kaedah pengklonan tingkah laku, para penyelidik melanjutkannya dan memperoleh AgentTraj-L yang mengandungi trajektori 14485 Rajah 3: Statistik 14 persekitaran platform AgentGym (merangkumi bilangan jenis tugas, saiz set arahan, saiz set penilaian, saiz set trajektori dan bilangan purata pusingan interaksi). . Persekitaran digunakan pada pelayan berbeza (EnvServers) untuk mencapai interaksi yang fleksibel dan cekap melalui perkhidmatan HTTP. Pelanggan (EnvClients) merangkum fungsi yang diperlukan untuk berinteraksi dengan persekitaran dan menyediakan antara muka operasi yang sepadan. Komponen teras AgentController berfungsi sebagai perantara antara ejen dan persekitaran, menyediakan jurulatih (Pelatih) yang mengoptimumkan strategi ejen, dan penilai prestasi (Penilai) yang menyokong pelbagai persekitaran. Antara muka operasi bersatu memudahkan interaksi antara ejen dan persekitaran, membolehkan pengguna menumpukan pada pengoptimuman algoritma dan latihan ejen. Rajah 4: Gambaran keseluruhan seni bina platform AgentGym.
Berbanding dengan rangka kerja lain, kelebihan AgentGym ialah ia bukan sahaja menyediakan pelbagai koleksi persekitaran masa sebenar ejen melalui platform interaktif , menyokong latihan dan penilaian ejen pintar. Pada masa yang sama, AgentGym menyokong "evolusi menyeluruh" ejen dalam berbilang persekitaran, yang sangat meningkatkan keupayaan generalisasi ejen dan membolehkannya berfungsi dengan baik dalam tugasan dan persekitaran yang berbeza. Rajah 5: Perbandingan AgentGym dengan rangka kerja ejen lain. AgentEvol - Algoritma Evolusi Ejen Am
Berdasarkan suite AgentGym, penyelidik boleh mencuba, melatih dan menilai ejen dengan mudah. Untuk meneroka potensi "evolusi diri" ejen tujuan am, Pasukan Bahasa dan Visi Fudan mencadangkan algoritma AgentEvol (Rajah 6), yang membantu ejen meningkatkan keupayaan mereka dalam pelbagai persekitaran dan tugas. Idea teras algoritma ini adalah untuk membolehkan ejen meningkatkan prestasinya melalui penerokaan dan pembelajaran, terutamanya apabila berhadapan dengan tugas dan arahan yang tidak dilihat sebelum ini. ~ agen am (base general- capable agent), supaya mempunyai arahan asas mengikut kebolehan dan pengetahuan sedia ada yang diperlukan. Dalam proses ini, agen meniru trajektori pakar selangkah demi selangkah, termasuk proses berfikir (pemikiran) dan tindakan (tindakan). Kemudian, agen pintar am asas ini berinteraksi dengan persekitaran yang berbeza dan melengkapkan evolusi kendirinya. Ia menghadapi arahan dan pertanyaan yang lebih pelbagai daripada persekitaran yang berbeza dan secara beransur-ansur meningkatkan keupayaannya untuk menyelesaikan pelbagai tugas. Proses ini diilhamkan oleh kaedah RL sebagai Inferens dalam pembelajaran mesin, yang menganggap pembelajaran pengukuhan interaktif sebagai masalah inferens kebarangkalian (lihat teks asal untuk terbitan dan penjelasan khusus). Kaedah ini berbeza daripada kaedah pembelajaran tetulang tradisional Ia tidak mencari trajektori yang memaksimumkan pulangan yang dijangkakan, sebaliknya, ia mula-mula mentakrifkan pengagihan dasar yang optimum tentang trajektori dan kemudian mengoptimumkan pengagihan ini melalui proses berulang. Secara khusus, proses tersebut merangkumi dua langkah berselang-seli: "Langkah Penerokaan": Dalam langkah ini, ejen berinteraksi dengan strategi semasa di bawah strategi semasa dan trajektori baharu Persekitaran berinteraksi, menjana menilai ganjaran mereka, membentuk anggaran pengagihan dasar optimum. Khususnya, ejen berinteraksi dengan pelbagai persekitaran dan menjana satu siri trajektori tingkah laku. Setiap trajektori adalah hasil interaksi antara ejen dan persekitaran mengikut strategi semasa, termasuk pemikiran ejen, tingkah laku ejen, dan pemerhatian persekitaran. Kemudian, persekitaran akan memberi isyarat ganjaran kepada setiap trajektori berdasarkan tahap padanan antara trajektori dan matlamat tugasan.
「Langkah Pembelajaran
」: Dalam langkah ini, ejen mengemas kini parameter berdasarkan anggaran pengagihan strategi optimum untuk menjadikannya lebih dekat dengan strategi optimum. Khususnya, ejen menggunakan trajektori dan data ganjaran yang dikumpul semasa langkah penerokaan untuk mengoptimumkan dirinya sendiri melalui fungsi objektif pengoptimuman berdasarkan pemberatan ganjaran trajektori. Ambil perhatian bahawa dalam langkah pembelajaran, untuk mengurangkan overfitting, penulis sentiasa mengoptimumkan "agen am asas" dan bukannya ejen yang diperoleh dalam pusingan pengoptimuman sebelumnya.
-
Dengan langkah penerokaan dan pembelajaran berselang-seli, algoritma AgentEvol secara beransur-ansur mengoptimumkan ejen, meningkatkan keupayaannya dengan ketara dalam pelbagai persekitaran dan mencapai matlamat "evolusi diri".
-
Pengenalan eksperimen
Gambaran keseluruhan tugas: Kajian ini menjalankan satu siri eksperimen silang. Eksperimen ini bertujuan untuk menilai keupayaan ejen asas untuk meneroka sendiri dan berkembang dalam persekitaran yang pelbagai. Untuk tujuan ini, penulis menggunakan set arahan yang lebih luas untuk mengembangkan ruang penerokaan ejen.
Hasil utama: Dalam 11 persekitaran berbeza, ejen yang dilatih menggunakan set data AgentTraj menunjukkan keupayaan interaksi asas yang baik. Seterusnya, dengan melaksanakan pengklonan tingkah laku pada set data AgentTraj-L yang lebih besar, ejen mencapai peningkatan prestasi yang ketara. Kaedah AgentEvol yang dicadangkan dalam artikel ini, walaupun pada peringkat awal hanya berdasarkan data pakar terhad, melalui langkah penerokaan dan pembelajaran bergantian
, ejen dapat membuat keputusan yang betul mengenai set penerokaan ghaib Buat membuat keputusan dan merealisasikan evolusi diri. Pada pelbagai tugas ejen, kaedah AgentEvol mengatasi dan model SOTA yang lain.
Penemuan ini mendedahkan potensi ejen untuk menyesuaikan diri dan menyelesaikan tugas yang lebih kompleks, menyediakan asas yang kukuh untuk pembangunan ejen tujuan am yang lebih maju. Rajah 7: Perbandingan prestasi pelbagai model dan ejen dalam persekitaran berbilang tugas Satu siri ablasi terungkap dari empat sudut Eksperimen: (1) Strategi penggabungan data; (2) Bilangan lelaran evolusi; persampelan. Eksperimen mendapati bahawa penggabungan trajektori yang dijana pada masa ini oleh ejen dengan set awal trajektori pakar boleh membawa kepada peningkatan prestasi yang lebih stabil. Sejajar dengan itu, menggunakan trajektori penerokaan lelaran sebelumnya boleh membawa kepada overfitting dan turun naik prestasi. Apabila bilangan lelaran M meningkat semasa proses evolusi, prestasi bertambah baik, tetapi ia akhirnya akan stabil dan menumpu. , menjana pelbagai trajektori
untuk mempromosikan pembelajaran ejen pintar.
Menghadkan julat penerokaan ejen kepada set arahan yang diketahuiruang terhad, mungkin mengehadkan peningkatan prestasi AgentEvol.目 Rajah 9: Eksperimen ablasi nombor pensampelan dan skop penerokaan Di samping itu, penyelidik juga bereksperimen pada model asas yang berbeza. Keputusan menunjukkan bahawa kaedah AgentEvol berprestasi baik pada model dengan saiz yang berbeza. Bolehkah pengalaman menjejaki kejayaan dan kegagalan kedua-duanya Membuat perubahan Percubaan menggunakan kaedah Direct Preference Optimization DPO (Direct Preference Optimization), yang dilatih berdasarkan trajektori "kegagalan-kejayaan" semasa proses penerokaan. Keputusan menunjukkan bahawa ejen boleh belajar daripada pengalaman ralat dalam senario berbilang tugas, tetapi prestasi keseluruhannya masih lebih rendah daripada kaedah AgentEvol. Dengan sokongan Yayasan Sains Semula Jadi Kebangsaan China, Program R&D Utama 863/973/Key, dan kementerian dan dana komisen wilayah, sejumlah besar jurnal antarabangsa dan kertas persidangan peringkat tinggi telah diterbitkan. Di bawah kepimpinan pemimpin akademik Profesor Huang Xuanjing, makmal telah menjalankan penyelidikan yang sistematik dan mendalam mengenai sempadan model besar dalam aspek seperti model besar bahasa, model besar multimodal, penjajaran model besar, dan agen pintar, menghasilkan MOSS , Moosi, dsb. Satu siri kerja dengan impak akademik yang hebat, dan hubungan kerjasama yang erat dengan perusahaan saintifik dan teknologi terkemuka dalam dan luar negara. Makmal Visi dan Pembelajaran Universiti Fudan diasaskan oleh Profesor Jiang Yugang Ia kini mempunyai 7 orang guru, lebih daripada 80 pelajar sarjana dan kedoktoran, dan lebih daripada 30 pelajar siswazah. Makmal ini terutamanya terlibat dalam penyelidikan tentang teori dan aplikasi penglihatan komputer dan kecerdasan buatan pelbagai mod
Bertujuan untuk membangunkan algoritma AI yang tepat, pantas, berskala dan boleh dipercayai supaya mesin boleh belajar, memahami dan menaakul seperti manusia . Makmal ini telah melaksanakan projek penyelidikan saintifik nasional dan tempatan yang penting seperti projek utama Inovasi Sains dan Teknologi 2030-"Kecerdasan Buatan Generasi Baharu", Dana Utama Yayasan Sains Semula Jadi Negara China, Projek Rancangan R&D Utama Negara, Sains Shanghai dan Pelan Tindakan Inovasi Teknologi, dsb., serta Huawei, Tencent, Keperluan penyelidikan teknikal perusahaan seperti Baidu.
Atas ialah kandungan terperinci Buka keseluruhan proses 'evolusi diri' ejen pintar! Fudan melancarkan AgentGym, platform badan pintar tujuan umum. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!