Tugas penjanaan tindakan manusia bertujuan untuk menjana urutan tindakan manusia yang realistik untuk memenuhi keperluan hiburan, realiti maya, robotik dan bidang lain. Kaedah penjanaan tradisional termasuk langkah-langkah seperti penciptaan aksara 3D, animasi bingkai kunci dan tangkapan gerakan, yang mempunyai banyak batasan, seperti memakan masa, memerlukan pengetahuan teknikal profesional, melibatkan sistem dan perisian yang mahal, dan kemungkinan keserasian antara sistem perisian dan perkakasan yang berbeza. Isu seksual dsb. Dengan perkembangan pembelajaran mendalam, orang ramai mula cuba menggunakan model generatif untuk mencapai penjanaan automatik urutan tindakan manusia, contohnya, dengan memasukkan penerangan teks dan memerlukan model menjana urutan tindakan yang sepadan dengan keperluan teks. Apabila model resapan diperkenalkan ke dalam medan, ketekalan tindakan yang dihasilkan dengan teks yang diberikan terus bertambah baik.
Namun, walaupun sifat semula jadi tindakan yang dihasilkan telah dipertingkatkan, masih terdapat jurang yang besar di antaranya dan keperluan penggunaan. Untuk meningkatkan lagi keupayaan algoritma penjanaan gerakan manusia, kertas kerja ini mencadangkan algoritma ReMoDiffuse (Rajah 1) berdasarkan MotionDiffuse [1]. Dengan menggunakan strategi perolehan semula, kami menemui sampel rujukan yang sangat relevan dan menyediakan ciri rujukan yang terperinci untuk menjana urutan tindakan berkualiti tinggi
Pautan kertas: https://arxiv.org/pdf/2304.01116 .pdf
Pautan GitHub: https://github.com/mingyuan-zhang/ReMoDiffuse
Laman utama projek: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
Pengenalan kaedah
Proses utama ReMoDiffuse.proses utama ReMoDiffuse. Dalam peringkat perolehan semula, ReMoDiffuse menggunakan teknologi perolehan semula hibrid untuk mendapatkan semula sampel yang kaya dengan maklumat daripada pangkalan data berbilang modal luaran berdasarkan teks input pengguna dan jangkaan panjang jujukan tindakan, memberikan panduan yang berkuasa untuk penjanaan tindakan. Dalam peringkat penyebaran, ReMoDiffuse menggunakan maklumat yang diperoleh dalam peringkat perolehan semula untuk menjana urutan gerakan yang konsisten secara semantik dengan input pengguna melalui struktur model yang cekapUntuk memastikan perolehan semula yang cekap, ReMoDiffuse mereka bentuk aliran data berikut dengan teliti untuk peringkat perolehan semula (Rajah 2):Terdapat tiga jenis data yang terlibat dalam proses mendapatkan semula, iaitu teks input pengguna, jangkaan panjang urutan tindakan dan pangkalan data berbilang modal luaran yang mengandungi berbilang pasangan
. Apabila mendapatkan semula sampel yang paling berkaitan, ReMoDiffuse menggunakan formula untuk mengira persamaan antara sampel dalam setiap pangkalan data dan input pengguna. Item pertama di sini adalah untuk mengira persamaan kosinus antara teks input pengguna dan teks entiti pangkalan data menggunakan pengekod teks model CLIP [2] pra-latihan, dan item kedua mengira perbezaan antara panjang jujukan tindakan yang dijangkakan. dan panjang jujukan tindakan entiti pangkalan data Perbezaan relatif diambil sebagai persamaan kinematik. Selepas mengira skor persamaan, ReMoDiffuse memilih sampel k teratas dengan persamaan yang serupa dengan sampel yang diambil dan mengekstrak ciri teks dan ciri tindakan . Kedua-dua ini, bersama-sama dengan ciri yang diekstrak daripada input teks oleh pengguna, berfungsi sebagai isyarat input ke peringkat penyebaran untuk membimbing penjanaan tindakan.
Proses resapan (Rajah 3.c) terdiri daripada dua bahagian: proses hadapan dan proses songsang. Dalam proses ke hadapan, ReMoDiffuse secara beransur-ansur menambah hingar Gaussian pada data gerakan asal dan akhirnya menukarkannya kepada hingar rawak. Proses songsang memfokuskan pada penyingkiran hingar dan menghasilkan sampel gerakan yang realistik. Bermula daripada hingar Gaussian rawak, ReMoDiffuse menggunakan Modul Modulasi Semantik (SMT) (Rajah 3.a) pada setiap langkah proses songsang untuk menganggarkan taburan sebenar dan mengeluarkan bunyi secara beransur-ansur berdasarkan isyarat bersyarat. Modul SMA dalam SMT di sini akan menyepadukan semua maklumat keadaan ke dalam ciri jujukan yang dijana, iaitu modul teras yang dicadangkan dalam artikel ini
untuk lapisan SMA Rajah 3.b), kami menggunakan mekanisme perhatian yang cekap (Efficient Attention) [3] untuk mempercepatkan pengiraan modul perhatian dan mencipta peta ciri global yang lebih menekankan maklumat global. Peta ciri ini menyediakan petunjuk semantik yang lebih komprehensif untuk urutan tindakan, dengan itu meningkatkan prestasi model. Matlamat teras lapisan SMA adalah untuk mengoptimumkan penjanaan urutan tindakan
dengan mengagregatkan maklumat keadaan. Dalam rangka kerja ini:
Vektor 1.Q secara khusus mewakili urutan tindakan yang dijangkakanyang kami jangka akan jana berdasarkan maklumat bersyarat. Vektor 2.K berfungsi sebagai mekanisme pengindeksan yang mempertimbangkan pelbagai faktor secara menyeluruh, termasuk ciri jujukan tindakan semasa , input ciri semantik oleh pengguna dan ciri dan yang diperoleh daripada sampel pengambilan semula. Antaranya,
mewakili ciri urutan tindakan yang diperolehi daripada sampel perolehan, danmewakili ciri penerangan teks yang diperoleh daripada sampel perolehan semula. Kaedah pembinaan yang komprehensif ini memastikan keberkesanan vektor K dalam proses pengindeksan.
🎜Vektor 3.V menyediakan ciri sebenar yang diperlukan untuk menjana tindakan. Sama seperti vektor K, vektor V mengambil kira sampel perolehan semula, input pengguna dan urutan tindakan semasa. Memandangkan tiada korelasi langsung antara ciri penerangan teks bagi sampel yang diambil dan tindakan yang dijana, kami memilih untuk tidak menggunakan ciri ini semasa mengira vektor V untuk mengelakkan gangguan maklumat yang tidak diperlukan🎜Digabungkan dengan mekanisme templat perhatian global Perhatian Cekap, lapisan SMA menggunakan maklumat tambahan daripada sampel perolehan semula, maklumat semantik teks pengguna dan maklumat ciri urutan yang akan dinafikan untuk mewujudkan satu siri templat global yang komprehensif , supaya semua maklumat keadaan boleh diserap sepenuhnya oleh urutan yang akan dijana.
Untuk menulis semula kandungan, teks asal perlu ditukar kepada bahasa Cina. Inilah rupanya selepas menulis semula: Reka Bentuk Penyelidikan dan Hasil Eksperimen
Kami menilai ReMoDiffuse pada dua set data, HumanML3D [4] dan KIT-ML [5]. Keputusan percubaan (Jadual 1 dan 2) menunjukkan prestasi hebat dan kelebihan rangka kerja ReMoDiffuse kami yang dicadangkan dari perspektif ketekalan teks dan kualiti tindakan
Berikut adalah beberapa contoh yang menunjukkan prestasi berkuasa ReMoDiffuse 4). (Rajah Berbanding dengan kaedah sebelumnya, contohnya, memandangkan teks "Seseorang melompat dalam bulatan," hanya ReMoDiffuse yang dapat menangkap gerakan "melompat" dan laluan "bulatan" dengan tepat. Ini menunjukkan bahawa ReMoDiffuse dapat menangkap butiran teks dengan berkesan dan menyelaraskan kandungan dengan tempoh gerakan yang diberikan
secara visual memaparkan urutan tindakan sepadan yang dihasilkan oleh kaedah Guo et al. [4], MotionDiffuse [1], MDM [6] dan ReMoDiffuse, dan mengumpul pendapat peserta ujian dalam bentuk soal selidik. Taburan keputusan ditunjukkan dalam Rajah 5. Ia boleh dilihat dengan jelas daripada keputusan bahawa dalam kebanyakan kes, peserta ujian percaya bahawa urutan tindakan yang dihasilkan oleh kaedah kami - iaitu, urutan tindakan yang dijana oleh ReMoDiffuse adalah yang paling konsisten dengan penerangan teks yang diberikan antara empat algoritma, dan juga adalah yang paling semula jadi dan licin.
Citation
ming Yuan Zhang, Cai Zhonggang, Pan Liang, Hong Fangzhou, Guo Xinying, Yang Lei dan Liu Ziwei. Motiondiffuse: Penjanaan gerakan manusia dipacu teks berdasarkan model resapan. pracetak arXiv arXiv:2208.15001, 2022
[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin al. Pemindahan Jack model visual daripada penyeliaan bahasa semula jadi. arXiv arXiv:2103.00020, 2021.
[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, dan Hongsheng Li Perhatian yang cekap Persidangan musim sejuk IEEE/CVF mengenai aplikasi penglihatan komputer, halaman 3531–3539, 2021.
[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li dan Li Cheng Menjana pelbagai dan gerakan manusia 3d semula jadi daripada teks. Dalam Prosiding Persidangan IEEE/CVF mengenai Visi Komputer dan Pengecaman Corak, halaman 5152–5161, 2022.
Kandungan yang perlu ditulis semula ialah: [5] Matthias Plappert, Christian Mandery dan Tamim Asfour. "Set Data Bahasa Motor". Big Data, 4(4):236-252, 2016
[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or dan Amit H Bermano model penyebaran gerakan manusia Persidangan Antarabangsa mengenai Perwakilan Pembelajaran, 2022.
🎜Atas ialah kandungan terperinci ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!