Menurut berita pada 8 Mac, pada hari Isnin, sekumpulan penyelidik kecerdasan buatan dari Google dan Universiti Teknikal Berlin melancarkan model bahasa visual terbesar dalam sejarah - PaLM-E, dengan volum parameter sehingga 562 bilion ( volum parameter GPT-3 ialah 175 bilion).
PaLM-E ialah VLM terbesar yang diketahui setakat ini (Model Bahasa Visual). Sebagai VLM yang mengandungi pelbagai mod, ia bukan sahaja dapat memahami imej, tetapi juga memahami, menjana bahasa, dan melaksanakan pelbagai arahan robotik yang kompleks tanpa latihan semula. Ia juga mempamerkan keupayaan kemunculan yang kuat (model yang berkelakuan tidak dapat diramalkan).
Menurut Google, apabila diberi arahan peringkat tinggi, seperti "Bawakan saya kepingan nasi dalam laci," PaLM-E boleh menjana platform robot mudah alih dengan lengan (dibangunkan oleh Google Robots). Pelan tindakan dan laksanakan sendiri tindakan tersebut.
PaLM-E mencapai ini dengan menganalisis data daripada kamera robot tanpa pra-memproses pemandangan. Ini menghapuskan keperluan manusia untuk pra-memproses atau menganotasi data, menjadikan kawalan robot lebih autonomi.
PaLM-E juga fleksibel dan mampu bertindak balas terhadap persekitaran. Sebagai contoh, model PaLM-E boleh membimbing robot untuk mengambil beg kerepek kentang dari dapur Oleh kerana PaLM-E disepadukan ke dalam gelung kawalan, ia tahan terhadap gangguan yang mungkin berlaku semasa tugasan. Dalam satu contoh video, seorang penyelidik mengambil kerepek kentang dari tangan robot dan mengalihkannya, tetapi robot itu menemui kerepek itu dan meraihnya semula.
Selain itu, model PaLM-E juga boleh mengawal robot untuk menyelesaikan tugas kompleks secara autonomi yang pada asalnya memerlukan bimbingan manusia. Selain robotik, penyelidik Google juga memerhatikan beberapa kesan menarik menggunakan model bahasa besar sebagai teras PaLM-E Salah satunya ialah PaLM-E boleh mempamerkan "pemindahan ke hadapan", yang bermaksud ia boleh belajar daripada tugas. Pengetahuan dan kemahiran yang diperoleh boleh dipindahkan ke tugas lain, yang boleh melakukan lebih baik daripada model robot tugas tunggal.
Penyelidik Google merancang untuk meneroka lebih banyak aplikasi dunia sebenar PaLM-E pada masa hadapan, seperti automasi rumah atau robot industri, dan berharap PaLM-E boleh memberi inspirasi kepada lebih banyak aplikasi AI berbilang modal.
IT House telah melaporkan bahawa Sebagai saingan kuat Google AI, Microsoft juga baru-baru ini menerbitkan kertas kerja "ChatGPT for Robotics", yang menggabungkan data visual dan data berskala besar dengan cara yang sama. Model bahasa untuk mengawal robot.
Atas ialah kandungan terperinci 562 bilion parameter! Google mengeluarkan PaLM-E, model AI 'generalis' terbesar dalam sejarah, membolehkan robot melakukan pelbagai tugas secara autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!