Pelbagai aplikasi model besar masih popular baru-baru ini Satu siri artikel gimik muncul sekitar awal Oktober, cuba menggunakan model besar untuk pemanduan autonomi. Saya telah bercakap tentang banyak topik berkaitan dengan ramai rakan baru-baru ini Apabila menulis artikel ini, di satu pihak, saya mendapati bahawa termasuk diri saya sendiri, pada masa lalu, kami sebenarnya telah mengelirukan beberapa konsep yang sangat berkaitan tetapi sebenarnya berbeza tangan, ia adalah lanjutan daripada konsep-konsep ini Terdapat beberapa pemikiran menarik yang patut dikongsi dan dibincangkan dengan semua orang.
Ini sudah pasti hala tuju paling popular pada masa ini, dan ia juga menjadi tumpuan kertas kerja yang paling tertumpu. Bagaimanakah model bahasa besar boleh membantu pemanduan autonomi? Di satu pihak, seperti GPT-4V, ia menyediakan keupayaan pemahaman semantik yang sangat berkuasa melalui penjajaran dengan imej, yang tidak akan disebut di sini buat masa ini, sebaliknya, ia menggunakan LLM sebagai ejen untuk melaksanakan tingkah laku pemanduan secara langsung. Yang terakhir ini sebenarnya merupakan hala tuju penyelidikan yang paling seksi pada masa ini, dan berkait rapat dengan siri kerja pada AI terbenam.
Kebanyakan jenis kerja terakhir yang dilihat setakat ini menggunakan LLM: 1) digunakan secara langsung 2) diperhalusi melalui pembelajaran terselia 3) diperhalusi melalui pembelajaran pengukuhan untuk tugas memandu. Pada dasarnya, tidak lari daripada kerangka paradigma pemanduan sebelum ini berdasarkan kaedah pembelajaran. Sebenarnya, soalan yang sangat langsung ialah, mengapa mungkin lebih baik menggunakan LLM untuk melakukan ini? Secara intuitif, menggunakan kata-kata untuk memandu adalah perkara yang tidak cekap dan bertele-tele. Kemudian suatu hari saya tiba-tiba memikirkannyaLLM sebenarnya melaksanakan pralatihan untuk ejen melalui bahasa! Salah satu sebab penting mengapa RL sukar untuk digeneralisasikan sebelum ini ialah sukar untuk menyatukan pelbagai tugas dan menggunakan pelbagai data biasa untuk melatih setiap tugasan hanya boleh dilatih dari awal, tetapi LLM menyelesaikannya dengan baik soalan. Tetapi sebenarnya, terdapat beberapa masalah yang tidak dapat diselesaikan dengan baik: 1) Selepas melengkapkan pralatihan, mestikah bahasa itu dikekalkan sebagai antara muka keluaran? Ini sebenarnya membawa banyak kesulitan kepada banyak tugas, dan juga menyebabkan pengiraan berlebihan pada tahap tertentu. 2) Pendekatan LLM sebagai ejen masih tidak mengatasi masalah asas kaedah bebas model RL sedia ada, dan semua masalah kaedah bebas model masih wujud. Baru-baru ini, kami juga telah melihat beberapa percubaan berasaskan model + LLM sebagai ejen, yang mungkin merupakan hala tuju yang menarik.
Perkara terakhir yang ingin saya adukan dalam setiap kertas kerja ialah: Ia bukan sekadar menyambung kepada LLM dan membiarkan LLM mengeluarkan alasan untuk menjadikan model anda boleh ditafsirkan. Alasan ini mungkin masih karut. . . Perkara yang tidak dijamin sebelum ini tidak akan menjadi terjamin hanya kerana ayat adalah output.
Model visual yang besar sebenarnya masih belum melihat detik "kemunculan" ajaib itu. Apabila bercakap tentang model visual yang besar, secara amnya terdapat dua rujukan yang mungkin: satu ialah pengekstrak ciri maklumat visual yang sangat berkuasa berdasarkan pra-latihan data web besar-besaran seperti CLIP atau DINO atau SAM, yang meningkatkan keupayaan pemahaman semantik model. ; Yang lain merujuk kepada model pasangan bersama (imej, tindakan, dll...) yang dilaksanakan oleh model dunia yang diwakili oleh GAIA.
Malah, saya rasa yang pertama hanyalah hasil daripada skala linear yang berterusan di sepanjang garis tradisional Pada masa ini, sukar untuk melihat kemungkinan perubahan kuantitatif dalam pemanduan autonomi. Malah, yang kedua telah terus memasuki bidang wawasan penyelidik kerana publisiti berterusan Wayve dan Tesla tahun ini. Apabila orang bercakap tentang model dunia, mereka sering memasukkan fakta bahawa model itu hujung ke hujung (secara langsung mengeluarkan tindakan) dan berkaitan dengan LLM. Malah, andaian ini adalah berat sebelah. Pemahaman saya tentang model dunia juga sangat terhad. Saya ingin mengesyorkan temu bual Lecun dan tinjauan RL berasaskan model @Yu Yang, yang tidak akan saya bahas lebih lanjut:
Yu Yang: Belajar tentang model persekitaran (model dunia)
//m.sbmmt.com/link/a2cdd86a458242d42a17c2bf4feff069
Ini sebenarnya mudah difahami dan merujuk kepada sistem pemanduan autonomous sahaja. Ini sebenarnya keinginan terbaik dan muktamad untuk pemanduan autonomi: untuk memandu dengan sepasang mata seperti manusia. Konsep sedemikian biasanya dikaitkan dengan dua model besar di atas, kerana semantik imej yang kompleks memerlukan keupayaan abstraksi yang kuat untuk mengekstrak maklumat yang berguna. Di bawah serangan publisiti berterusan Tesla baru-baru ini, konsep ini juga bertindih dengan hujung ke hujung yang dinyatakan di bawah. Tetapi sebenarnya, terdapat banyak cara untuk mencapai pemanduan visual tulen, dan hujung-ke-hujung secara semulajadi adalah salah satu daripadanya, tetapi ia bukan satu-satunya. Masalah yang paling sukar dalam merealisasikan pemanduan autonomi visual semata-mata ialah penglihatan sememangnya tidak sensitif terhadap maklumat 3D, dan model besar tidak mengubahnya pada dasarnya. Dicerminkan secara khusus dalam: 1) Cara menerima gelombang elektromagnet secara pasif menjadikan penglihatan tidak seperti penderia lain yang boleh mengukur maklumat geometri dalam ruang 3D) Perspektif menjadikan objek jauh sangat sensitif terhadap ralat. Ini sangat tidak mesra untuk perancangan dan kawalan hiliran, yang dilaksanakan dalam ruang 3D ralat yang sama secara lalai. Namun, adakah pemanduan dengan penglihatan sama seperti dapat menganggar jarak dan kelajuan 3D dengan tepat? Saya fikir ini adalah isu perwakilan yang layak untuk dikaji secara mendalam dalam pemanduan autonomi visual tulen selain pemahaman semantik.
Konsep ini merujuk kepada isyarat kawalan daripada sensor ke output akhir (malah, saya fikir ia juga boleh memasukkan maklumat titik laluan kepada perancangan lapisan yang lebih huluan) menggunakan pengoptimuman bersama model. Ini sama ada kaedah hujung-ke-hujung terus yang memasukkan data sensor seperti ALVINN seawal tahun 1980-an dan mengeluarkan isyarat kawalan secara terus melalui rangkaian saraf, atau ia boleh menjadi kaedah hujung-ke-hujung berperingkat seperti CVPR terbaik tahun ini kertas UniAD. Walau bagaimanapun, perkara biasa kaedah ini ialah isyarat penyeliaan hiliran boleh dihantar terus ke huluan, dan bukannya setiap modul mempunyai matlamat pengoptimuman yang ditentukan sendiri. Secara keseluruhan, ini adalah idea yang betul Lagipun, pembelajaran mendalam bergantung pada pengoptimuman bersama tersebut untuk menjana kekayaannya. Walau bagaimanapun, bagi sistem seperti pemanduan autonomi atau robot tujuan umum, yang selalunya sangat kompleks dan berurusan dengan dunia fizikal, terdapat banyak masalah yang perlu diatasi dari segi pelaksanaan kejuruteraan dan organisasi data dan kecekapan penggunaan.
Konsep ini nampaknya jarang disebut, tetapi sebenarnya saya mendapati bahawa kewujudan hujung ke hujung itu sendiri adalah berharga, tetapi masalahnya terletak pada pemerhatian penggunaan Cara Suapan Ke Hadapan ini. Termasuk saya, sebenarnya, saya selalu ingkar bahawa pemanduan hujung ke hujung mestilah dalam bentuk Feed-Forward, kerana 99% kaedah berasaskan pembelajaran mendalam semasa menganggap struktur sedemikian, yang bermaksud bahawa output akhir yang menjadi kebimbangan (seperti isyarat kawalan )u = f(x), x ialah pelbagai cerapan penderia. Di sini f boleh menjadi fungsi yang sangat kompleks. Tetapi sebenarnya, dalam beberapa masalah, kami berharap untuk membuat output akhir memuaskan atau hampir dengan hartanah tertentu, jadi sukar untuk borang Feed-Forward untuk memberikan jaminan sedemikian. Jadi terdapat satu lagi cara kita boleh menulis u* = argmin g(u, x) s.t h(u, x)
Dengan pembangunan model besar, penyelesaian pemanduan autonomi hujung-ke-hujung Feed-Forward terus ini telah membawa kebangkitan. Sudah tentu, model besar sangat berkuasa, tetapi saya menimbulkan satu soalan dan berharap semua orang akan memikirkannya: Jika model besar adalah maha kuasa dari hujung ke hujung, adakah itu bermakna model besar itu sepatutnya boleh memainkan hujung Go/Gobang -ke-akhir? Paradigma seperti AlphaGo sepatutnya tidak bermakna? Saya percaya semua orang tahu bahawa jawapannya adalah tidak. Sudah tentu, kaedah Feed-Forward ini boleh digunakan sebagai penyelesai anggaran yang pantas dan mencapai keputusan yang baik dalam kebanyakan senario.
Berdasarkan pelbagai penyelesaian yang telah mendedahkan penggunaan Perancang Neural mereka, bahagian saraf hanya menyediakan beberapa cadangan permulaan untuk penyelesaian pengoptimuman seterusnya untuk mengurangkan masalah pengoptimuman sangat tidak cembung dalam pengoptimuman berikutnya. Ini pada asasnya adalah perkara yang sama seperti pelancaran pantas dalam AlphaGo. Tetapi AlphaGo tidak akan memanggil carian MCTS berikutnya sebagai penyelesaian "menutup". . . Akhir sekali, saya berharap ini dapat membantu semua orang menjelaskan perbezaan dan kaitan antara konsep ini, dan semua orang dapat memahami dengan jelas perkara yang mereka bincangkan semasa membincangkan isu. . . Pautan asal: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_AAtas ialah kandungan terperinci Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!