ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini-AI-php.cn

Tugas penjanaan tindakan manusia bertujuan untuk menjana urutan tindakan manusia yang realistik untuk memenuhi keperluan hiburan, realiti maya, robotik dan bidang lain. Kaedah penjanaan tradisional termasuk langkah-langkah seperti penciptaan aksara 3D, animasi bingkai kunci dan tangkapan gerakan, yang mempunyai banyak batasan, seperti memakan masa, memerlukan pengetahuan teknikal profesional, melibatkan sistem dan perisian yang mahal, dan kemungkinan keserasian antara sistem perisian dan perkakasan yang berbeza. Isu seksual dsb. Dengan perkembangan pembelajaran mendalam, orang ramai mula cuba menggunakan model generatif untuk mencapai penjanaan automatik urutan tindakan manusia, contohnya, dengan memasukkan penerangan teks dan memerlukan model menjana urutan tindakan yang sepadan dengan keperluan teks. Apabila model resapan diperkenalkan ke dalam medan, ketekalan tindakan yang dihasilkan dengan teks yang diberikan terus bertambah baik.

Namun, walaupun sifat semula jadi tindakan yang dihasilkan telah dipertingkatkan, masih terdapat jurang yang besar di antaranya dan keperluan penggunaan. Untuk meningkatkan lagi keupayaan algoritma penjanaan gerakan manusia, kertas kerja ini mencadangkan algoritma ReMoDiffuse (Rajah 1) berdasarkan MotionDiffuse [1]. Dengan menggunakan strategi perolehan semula, kami menemui sampel rujukan yang sangat relevan dan menyediakan ciri rujukan yang terperinci untuk menjana urutan tindakan berkualiti tinggi

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

Pautan kertas: https://arxiv.org/pdf/2304.01116 .pdf
Pautan GitHub: https://github.com/mingyuan-zhang/ReMoDiffuse
Laman utama projek: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

difusi secara cermat model dengan strategi pencarian semula yang inovatif, ReMoDiffuse memberi nafas baharu kepada penjanaan tindakan manusia berpandukan teks. Dengan struktur model yang disusun dengan teliti, ReMoDiffuse bukan sahaja dapat mencipta urutan tindakan yang kaya, pelbagai dan sangat realistik, tetapi juga boleh memenuhi keperluan tindakan dengan pelbagai panjang dan berbutir-butir dengan berkesan. Eksperimen membuktikan bahawa ReMoDiffuse berprestasi baik pada berbilang penunjuk utama dalam bidang penjanaan tindakan, dengan ketara mengatasi algoritma sedia ada.

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Rajah 1. Gambaran Keseluruhan ReMoDiffuse

Pengenalan kaedah

Proses utama ReMoDiffuse.proses utama ReMoDiffuse. Dalam peringkat perolehan semula, ReMoDiffuse menggunakan teknologi perolehan semula hibrid untuk mendapatkan semula sampel yang kaya dengan maklumat daripada pangkalan data berbilang modal luaran berdasarkan teks input pengguna dan jangkaan panjang jujukan tindakan, memberikan panduan yang berkuasa untuk penjanaan tindakan. Dalam peringkat penyebaran, ReMoDiffuse menggunakan maklumat yang diperoleh dalam peringkat perolehan semula untuk menjana urutan gerakan yang konsisten secara semantik dengan input pengguna melalui struktur model yang cekap

Untuk memastikan perolehan semula yang cekap, ReMoDiffuse mereka bentuk aliran data berikut dengan teliti untuk peringkat perolehan semula (Rajah 2):

Terdapat tiga jenis data yang terlibat dalam proses mendapatkan semula, iaitu teks input pengguna, jangkaan panjang urutan tindakan dan pangkalan data berbilang modal luaran yang mengandungi berbilang pasangan

. Apabila mendapatkan semula sampel yang paling berkaitan, ReMoDiffuse menggunakan formula untuk mengira persamaan antara sampel dalam setiap pangkalan data dan input pengguna. Item pertama di sini adalah untuk mengira persamaan kosinus antara teks input pengguna dan teks entiti pangkalan data menggunakan pengekod teks model CLIP [2] pra-latihan, dan item kedua mengira perbezaan antara panjang jujukan tindakan yang dijangkakan. dan panjang jujukan tindakan entiti pangkalan data Perbezaan relatif diambil sebagai persamaan kinematik. Selepas mengira skor persamaan, ReMoDiffuse memilih sampel k teratas dengan persamaan yang serupa dengan sampel yang diambil dan mengekstrak ciri teks ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 dan ciri tindakan . Kedua-dua ini, bersama-sama dengan ciri yang diekstrak daripada input teks oleh pengguna, berfungsi sebagai isyarat input ke peringkat penyebaran untuk membimbing penjanaan tindakan. ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Rajah 2: Fasa pengambilan semula ReMoDiffuse

Proses resapan (Rajah 3.c) terdiri daripada dua bahagian: proses hadapan dan proses songsang. Dalam proses ke hadapan, ReMoDiffuse secara beransur-ansur menambah hingar Gaussian pada data gerakan asal dan akhirnya menukarkannya kepada hingar rawak. Proses songsang memfokuskan pada penyingkiran hingar dan menghasilkan sampel gerakan yang realistik. Bermula daripada hingar Gaussian rawak, ReMoDiffuse menggunakan Modul Modulasi Semantik (SMT) (Rajah 3.a) pada setiap langkah proses songsang untuk menganggarkan taburan sebenar dan mengeluarkan bunyi secara beransur-ansur berdasarkan isyarat bersyarat. Modul SMA dalam SMT di sini akan menyepadukan semua maklumat keadaan ke dalam ciri jujukan yang dijana, iaitu modul teras yang dicadangkan dalam artikel ini

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Rajah 3: Peringkat penyebaran ReMoDiffuse

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

untuk lapisan SMA Rajah 3.b), kami menggunakan mekanisme perhatian yang cekap (Efficient Attention) [3] untuk mempercepatkan pengiraan modul perhatian dan mencipta peta ciri global yang lebih menekankan maklumat global. Peta ciri ini menyediakan petunjuk semantik yang lebih komprehensif untuk urutan tindakan, dengan itu meningkatkan prestasi model. Matlamat teras lapisan SMA adalah untuk mengoptimumkan penjanaan urutan tindakan

dengan mengagregatkan maklumat keadaan. Dalam rangka kerja ini: ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini

Vektor 1.Q secara khusus mewakili urutan tindakan yang dijangkakan

yang kami jangka akan jana berdasarkan maklumat bersyarat. ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini Vektor 2.K berfungsi sebagai mekanisme pengindeksan yang mempertimbangkan pelbagai faktor secara menyeluruh, termasuk ciri jujukan tindakan semasa ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini , input ciri semantik oleh pengguna dan ciri dan yang diperoleh daripada sampel pengambilan semula. Antaranya,

mewakili ciri urutan tindakan yang diperolehi daripada sampel perolehan, dan

mewakili ciri penerangan teks yang diperoleh daripada sampel perolehan semula. Kaedah pembinaan yang komprehensif ini memastikan keberkesanan vektor K dalam proses pengindeksan.

🎜Vektor 3.V menyediakan ciri sebenar yang diperlukan untuk menjana tindakan. Sama seperti vektor K, vektor V mengambil kira sampel perolehan semula, input pengguna dan urutan tindakan semasa. Memandangkan tiada korelasi langsung antara ciri penerangan teks bagi sampel yang diambil dan tindakan yang dijana, kami memilih untuk tidak menggunakan ciri ini semasa mengira vektor V untuk mengelakkan gangguan maklumat yang tidak diperlukan🎜

Digabungkan dengan mekanisme templat perhatian global Perhatian Cekap, lapisan SMA menggunakan maklumat tambahan daripada sampel perolehan semula, maklumat semantik teks pengguna dan maklumat ciri urutan yang akan dinafikan untuk mewujudkan satu siri templat global yang komprehensif , supaya semua maklumat keadaan boleh diserap sepenuhnya oleh urutan yang akan dijana.

Untuk menulis semula kandungan, teks asal perlu ditukar kepada bahasa Cina. Inilah rupanya selepas menulis semula: Reka Bentuk Penyelidikan dan Hasil Eksperimen

Kami menilai ReMoDiffuse pada dua set data, HumanML3D [4] dan KIT-ML [5]. Keputusan percubaan (Jadual 1 dan 2) menunjukkan prestasi hebat dan kelebihan rangka kerja ReMoDiffuse kami yang dicadangkan dari perspektif ketekalan teks dan kualiti tindakan

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Jadual 1. Prestasi kaedah berbeza pada set ujian HumanML3D

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Jadual 2. Prestasi kaedah berbeza pada set ujian KIT-ML

Berikut adalah beberapa contoh yang menunjukkan prestasi berkuasa ReMoDiffuse 4). (Rajah Berbanding dengan kaedah sebelumnya, contohnya, memandangkan teks "Seseorang melompat dalam bulatan," hanya ReMoDiffuse yang dapat menangkap gerakan "melompat" dan laluan "bulatan" dengan tepat. Ini menunjukkan bahawa ReMoDiffuse dapat menangkap butiran teks dengan berkesan dan menyelaraskan kandungan dengan tempoh gerakan yang diberikan

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Rajah 4. Perbandingan urutan tindakan yang dijana oleh ReMoDiffuse dengan urutan tindakan yang dihasilkan oleh kaedah lain

secara visual memaparkan urutan tindakan sepadan yang dihasilkan oleh kaedah Guo et al. [4], MotionDiffuse [1], MDM [6] dan ReMoDiffuse, dan mengumpul pendapat peserta ujian dalam bentuk soal selidik. Taburan keputusan ditunjukkan dalam Rajah 5. Ia boleh dilihat dengan jelas daripada keputusan bahawa dalam kebanyakan kes, peserta ujian percaya bahawa urutan tindakan yang dihasilkan oleh kaedah kami - iaitu, urutan tindakan yang dijana oleh ReMoDiffuse adalah yang paling konsisten dengan penerangan teks yang diberikan antara empat algoritma, dan juga adalah yang paling semula jadi dan licin.

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Figure 5: Pengagihan hasil tinjauan pengguna

Citation

ming Yuan Zhang, Cai Zhonggang, Pan Liang, Hong Fangzhou, Guo Xinying, Yang Lei dan Liu Ziwei. Motiondiffuse: Penjanaan gerakan manusia dipacu teks berdasarkan model resapan. pracetak arXiv arXiv:2208.15001, 2022

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin al. Pemindahan Jack model visual daripada penyeliaan bahasa semula jadi. arXiv arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, dan Hongsheng Li Perhatian yang cekap Persidangan musim sejuk IEEE/CVF mengenai aplikasi penglihatan komputer, halaman 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li dan Li Cheng Menjana pelbagai dan gerakan manusia 3d semula jadi daripada teks. Dalam Prosiding Persidangan IEEE/CVF mengenai Visi Komputer dan Pengecaman Corak, halaman 5152–5161, 2022.

Kandungan yang perlu ditulis semula ialah: [5] Matthias Plappert, Christian Mandery dan Tamim Asfour. "Set Data Bahasa Motor". Big Data, 4(4):236-252, 2016

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or dan Amit H Bermano model penyebaran gerakan manusia Persidangan Antarabangsa mengenai Perwakilan Pembelajaran, 2022.

🎜

Atas ialah kandungan terperinci ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!