Model asas pra-latihan berdasarkan pembelajaran penyeliaan kendiri pada pelbagai set data telah menunjukkan keupayaan cemerlang dalam memindahkan pengetahuan kepada tugas hiliran yang berbeza. Akibatnya, model ini juga digunakan untuk masalah yang lebih kompleks seperti penaakulan jangka panjang, kawalan, carian dan perancangan, atau digunakan dalam aplikasi seperti dialog, pemanduan autonomi, penjagaan kesihatan dan robotik. Pada masa hadapan, mereka juga akan menyediakan antara muka kepada entiti dan ejen luaran Sebagai contoh, dalam aplikasi dialog, model bahasa berkomunikasi dengan orang dalam pelbagai pusingan dalam bidang robotik, model kawalan persepsi melakukan tindakan dalam persekitaran sebenar.
Senario ini menimbulkan cabaran baharu untuk model asas, termasuk: 1) cara belajar daripada maklum balas daripada entiti luar (seperti penilaian manusia terhadap kualiti perbualan), 2) cara menyesuaikan diri dengan modaliti luar biasa berskala besar dalam set data bahasa atau visual (seperti tindakan robot), 3) cara membuat alasan dan merancang untuk jangka panjang pada masa hadapan.
Masalah ini sentiasa menjadi teras dalam membuat keputusan berurutan dalam pengertian tradisional, meliputi pembelajaran pengukuhan, pembelajaran tiruan , perancangan dan carian serta kawalan optimum. Berbeza dengan paradigma di mana model asas dilatih terlebih dahulu menggunakan set data berbilion-bilion imej dan token teks yang luas, kerja sebelumnya dalam membuat keputusan berurutan tertumpu terutamanya pada tetapan khusus tugas atau papan putih dengan pengetahuan sedia ada yang terhad.
Walaupun sedikit atau tiada pengetahuan terdahulu menjadikan pembuatan keputusan yang berurutan kelihatan sukar, penyelidikan tentang pembuatan keputusan berurutan telah mengatasi prestasi manusia dalam pelbagai tugas, seperti bermain permainan papan, keanggunan, dsb. Permainan video Dali (Atari) dan mengendalikan robot untuk melengkapkan navigasi dan operasi.
Walau bagaimanapun, memandangkan kaedah ini belajar menyelesaikan tugasan dari awal tanpa pengetahuan yang luas daripada penglihatan, bahasa atau set data lain, kaedah ini sering berprestasi rendah dari segi generalisasi dan kecekapan sampel, Contohnya, memerlukan 7 GPU untuk dijalankan selama sehari untuk menyelesaikan satu permainan Atari. Secara intuitif, set data yang luas serupa dengan yang digunakan oleh model asas juga harus berguna untuk model membuat keputusan berurutan. Sebagai contoh, terdapat banyak artikel dan video di Internet tentang cara bermain permainan Atari. Dengan cara yang sama bahawa pengetahuan yang luas tentang sifat objek dan pemandangan berguna untuk robot, pengetahuan tentang keinginan dan emosi manusia boleh meningkatkan model perbualan.
Walaupun penyelidikan tentang model asas dan pembuatan keputusan berurutan pada umumnya tidak bersambung disebabkan oleh aplikasi dan kebimbangan yang berbeza, terdapat semakin banyak kajian bersilang. Dari segi model asas, dengan kemunculan model bahasa yang besar, aplikasi sasaran telah berkembang daripada tugas sifar pukulan atau beberapa pukulan mudah kepada masalah yang kini memerlukan penaakulan jangka panjang atau interaksi berbilang. Sebaliknya, dalam bidang membuat keputusan berurutan, diilhamkan oleh kejayaan model visi dan bahasa berskala besar, penyelidik mula menyediakan set data yang semakin besar untuk mempelajari pelbagai model, pelbagai tugas dan ejen interaktif am.
Sempadan antara kedua-dua bidang menjadi semakin kabur, dan beberapa kerja baru-baru ini telah mengkaji penggunaan model asas pra-latihan (seperti CLIP dan ViT) untuk bootstrap kecerdasan interaktif dalam visual latihan ejen, manakala kerja lain telah mengkaji model asas sebagai agen perbualan yang dioptimumkan melalui pembelajaran pengukuhan dan maklum balas manusia. Terdapat juga kerja untuk menyesuaikan model bahasa besar untuk berinteraksi dengan alat luaran seperti enjin carian, kalkulator, alat terjemahan, simulator MuJoCo dan jurubahasa program.
Baru-baru ini, penyelidik daripada pasukan Google Brain, UC Berkeley dan MIT menulis bahawa gabungan model asas dan penyelidikan membuat keputusan interaktif akan memberi manfaat kepada satu sama lain. Di satu pihak, menggunakan model asas kepada tugas yang melibatkan entiti luar boleh mendapat manfaat daripada maklum balas interaktif dan perancangan jangka panjang. Pembuatan keputusan secara berurutan, sebaliknya, boleh mengeksploitasi pengetahuan dunia tentang model asas untuk menyelesaikan tugas dengan lebih cepat dan generalisasi dengan lebih baik.
Alamat kertas: https://arxiv.org/pdf/2303.04129v1.pdf
Untuk memacu penyelidikan lanjut di persimpangan kedua-dua bidang ini, penyelidik mengehadkan ruang masalah model asas untuk membuat keputusan. Ia juga menyediakan alat teknikal untuk memahami penyelidikan semasa, menyemak cabaran semasa dan soalan yang belum dijawab, dan meramalkan penyelesaian yang berpotensi dan pendekatan yang menjanjikan untuk menangani cabaran ini.
Kertas ini terbahagi kepada 5 bab utama berikut.
Bab 2 menyemak latar belakang yang berkaitan tentang pembuatan keputusan berurutan dan menyediakan beberapa contoh senario di mana model asas dan membuat keputusan sebaiknya dipertimbangkan bersama. Ini diikuti dengan penerangan tentang cara komponen berbeza sistem membuat keputusan dibina di sekeliling model asas.
Bab 3 meneroka bagaimana model asas boleh digunakan sebagai model generatif tingkah laku (seperti penemuan kemahiran) dan model generatif persekitaran (seperti berasaskan model potongan).
Bab 4 meneroka cara model asas boleh berfungsi sebagai pembelajar perwakilan untuk keadaan, tindakan, ganjaran dan dinamik pemindahan (cth. visi plug-and-play - Model bahasa, pembelajaran perwakilan berasaskan model).
Bab 5 meneroka bagaimana model berasaskan bahasa berfungsi sebagai agen dan persekitaran interaktif, membolehkan penggunaan rangka kerja membuat keputusan berurutan (penaakulan model bahasa, dialog , penggunaan alat) untuk mempertimbangkan masalah dan aplikasi baharu.
Dalam bab terakhir, penyelidik menggariskan isu dan cabaran yang tidak dapat diselesaikan dan mencadangkan penyelesaian yang berpotensi ( Contohnya, bagaimana untuk mengeksploitasi pelbagai data, cara menstrukturkan persekitaran, dan apakah aspek model asas dan membuat keputusan berurutan boleh diperbaiki).
Sila rujuk kertas asal untuk butiran lanjut.
Atas ialah kandungan terperinci Bagaimanakah membuat keputusan berurutan dan model asas bersilang dan berbalas? Google, Berkeley dan lain-lain meneroka lebih banyak kemungkinan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!