Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah-AI-php.cn

Pengenalan model penyebaran telah menggalakkan pembangunan teknologi video penjanaan teks Walau bagaimanapun, kaedah ini selalunya mahal dari segi pengiraan dan sukar untuk mencapai video gerakan objek yang lancar

Untuk menangani masalah ini, penyelidik dari Shenzhen. Institut Teknologi Lanjutan, Akademi Sains China, Penyelidik dari Akademi Sains Universiti China dan Makmal Kecerdasan Buatan VIVO bersama-sama mencadangkan rangka kerja baharu yang dipanggil GPT4Motion yang boleh menjana video teks tanpa latihan. GPT4Motion menggabungkan keupayaan perancangan model bahasa besar seperti GPT, keupayaan simulasi fizikal yang disediakan oleh perisian Blender dan keupayaan penjanaan teks model penyebaran, bertujuan untuk meningkatkan kualiti sintesis video dengan lebih baik

Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah

Pautan projek: https://gpt4motion.github.io/

Pautan kertas: https://arxiv.org/pdf/2311.12631.pdf

Pautan kod: https://github.com/jiaxilv /GPT4Motion

GPT4Motion menggunakan GPT-4 untuk menjana skrip Blender berdasarkan gesaan teks input pengguna. Ia memanfaatkan enjin fizik Blender untuk mencipta komponen pemandangan asas dan merangkumnya sebagai gerakan silang bingkai yang berterusan. Komponen ini kemudiannya dimasukkan ke dalam model penyebaran untuk menghasilkan video yang sepadan dengan gesaan teks

Hasil eksperimen menunjukkan bahawa GPT4Motion boleh menjana video berkualiti tinggi dengan cekap sambil mengekalkan konsistensi gerakan dan konsistensi entiti. Perlu diingat bahawa GPT4Motion menggunakan enjin fizik untuk menjadikan video yang dihasilkan lebih realistik. Ini memberikan perspektif baharu untuk video penjanaan teks Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah

Mari kita lihat dahulu kesan penjanaan GPT4Motion, seperti memasukkan gesaan teks: "Baju-T putih berkibar-kibar ditiup angin", "T-T putih baju berkibar ditiup angin", "baju T putih berkibar ditiup angin kencang". Disebabkan oleh kekuatan angin yang berbeza, amplitud baju-T putih yang berkibar dalam video yang dihasilkan oleh GPT4Motion juga berbeza:

Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah

Dari segi corak aliran cecair, video yang dihasilkan oleh GPT4Motion juga boleh menunjukkan ia dengan baik:

Bola keranjang berputar dan jatuh dari udara:

Pengenalan kaedah

Matlamat kajian ini adalah untuk menghasilkan video yang pantas berdasarkan ciri fizikal pengguna adegan gerakan fizikal asas. Sifat fizikal selalunya berkaitan dengan bahan objek. Para penyelidik memberi tumpuan kepada simulasi tiga bahan objek biasa dalam kehidupan seharian: 1) objek tegar, yang boleh mengekalkan bentuknya tanpa berubah apabila dikenakan paksaan; mempamerkan pergerakan berterusan dan boleh berubah bentuk.

Selain itu, para penyelidik memberi perhatian khusus kepada beberapa mod pergerakan tipikal bahan-bahan ini, termasuk perlanggaran (kesan langsung antara objek), kesan angin (pergerakan yang disebabkan oleh aliran udara), dan aliran (berterusan dan bergerak dalam satu arah) . Mensimulasikan senario fizikal ini selalunya memerlukan pengetahuan tentang mekanik klasik, mekanik bendalir dan fizik lain. Model penyebaran semasa yang memfokuskan pada video yang dihasilkan teks adalah sukar untuk memperoleh pengetahuan fizikal yang kompleks ini melalui latihan, dan oleh itu tidak dapat menghasilkan video yang mematuhi sifat fizikal Kelebihan GPT4Motion adalah untuk memastikan bahawa video yang dihasilkan bukan sahaja konsisten dengan menggesa input oleh pengguna, Dan ia juga betul dari segi fizikal. Pemahaman semantik GPT-4 dan keupayaan penjanaan kod boleh menukar gesaan pengguna kepada skrip Python Blender, yang boleh memacu enjin fizik terbina dalam Blender untuk mensimulasikan adegan fizikal yang sepadan. Selain itu, kajian juga menggunakan ControlNet, mengambil keputusan dinamik simulasi Blender sebagai input untuk membimbing model resapan untuk menjana bingkai video demi bingkai Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah

Menggunakan GPT-4 untuk mengaktifkan Blender untuk operasi simulasi🎜🎜🎜

Penyelidik memerhatikan bahawa walaupun GPT-4 mempunyai pemahaman tertentu tentang API Python Blender, keupayaannya untuk menjana skrip Python Blender berdasarkan gesaan pengguna masih kurang. Di satu pihak, meminta GPT-4 untuk mencipta walaupun model 3D yang mudah (seperti bola keranjang) secara langsung dalam Blender nampaknya seperti tugas yang sukar. Sebaliknya, memandangkan API Python Blender mempunyai sumber yang lebih sedikit dan versi API dikemas kini dengan cepat, adalah mudah untuk GPT-4 menyalahgunakan ciri tertentu atau membuat ralat disebabkan perbezaan versi. Untuk menyelesaikan masalah ini, kajian mencadangkan penyelesaian berikut:

Gunakan model 3D luaran
untuk merangkum fungsi Blender
Tukar gesaan pengguna kepada sifat fizikal

belajar Templat gesaan generik direka untuk GPT-4. Ia termasuk fungsi Blender terkapsul, alat luaran dan arahan pengguna. Para penyelidik mentakrifkan piawaian saiz dunia maya dalam templat dan memberikan maklumat tentang kedudukan dan perspektif kamera. Maklumat ini membantu GPT-4 lebih memahami susun atur ruang tiga dimensi. Kemudian, arahan yang sepadan dijana berdasarkan input segera oleh pengguna, dan membimbing GPT-4 untuk menjana skrip Blender Python yang sepadan. Akhirnya, melalui skrip ini, Blender menjadikan tepi dan kedalaman objek dan mengeluarkannya sebagai jujukan imej.

Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah

Kandungan yang ditulis semula: Membuat video yang mematuhi undang-undang fizik

Kajian ini bertujuan untuk menjana, berdasarkan pada usul dan syarat yang disediakan oleh pengguna Blender, Video yang konsisten dengan teks dan realistik secara visual. Untuk tujuan ini, kajian itu mengguna pakai Model Difusi

Kawal sifat fizikal

Rajah 4 menunjukkan video gerakan bola keranjang yang dijana oleh GPT4Motion di bawah tiga gesaan, yang melibatkan kejatuhan dan perlanggaran bola keranjang. Di sebelah kiri Rajah 4, bola keranjang mengekalkan tekstur yang sangat realistik semasa ia berputar dan dengan tepat mereplikasi gelagat melantunnya selepas hentaman dengan tanah. Bahagian tengah Rajah 4 menunjukkan kaedah ini boleh mengawal bilangan bola keranjang dengan tepat dan berkesan menjana perlanggaran dan lantunan yang berlaku apabila berbilang bola keranjang mendarat. Yang menghairankan, seperti yang ditunjukkan di sebelah kanan Rajah 4, apabila pengguna meminta untuk melempar bola keranjang ke arah kamera, GPT-4 akan mengira halaju awal yang diperlukan berdasarkan masa jatuh bola keranjang dalam skrip yang dihasilkan, dengan itu mencapai visual yang realistik kesan. Ini menunjukkan bahawa GPT4Motion boleh digabungkan dengan pengetahuan fizik yang dikuasai oleh GPT-4 untuk mengawal kandungan video yang dihasilkan daripada

Rajah 7 menunjukkan tiga video menuang air yang berbeza kelikatan ke dalam mug. Apabila kelikatan air rendah, air yang mengalir berlanggar dengan air di dalam cawan dan bergabung, membentuk fenomena aliran gelora yang kompleks. Apabila kelikatan meningkat, aliran air menjadi lebih perlahan dan cecair mula melekat antara satu sama lain

Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah

Perbandingan dengan kaedah garis dasar

Dalam Rajah 1, GPT4Motion dibandingkan secara visual dengan kaedah asas yang lain. Adalah jelas bahawa keputusan kaedah garis dasar tidak sepadan dengan gesaan pengguna. DirecT2V dan Text2Video-Zero mempunyai kelemahan dalam kesetiaan tekstur dan ketekalan gerakan, manakala AnimateDiff dan ModelScope meningkatkan kelancaran video, tetapi masih terdapat ruang untuk penambahbaikan dalam ketekalan tekstur dan kesetiaan gerakan. Berbanding dengan kaedah ini, GPT4Motion boleh menghasilkan perubahan tekstur yang licin semasa bola keranjang jatuh dan melantun selepas berlanggar dengan lantai, yang kelihatan lebih realistik

Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah

Seperti yang ditunjukkan dalam Rajah 8 (baris pertama), AnimateDiff dan Video yang dihasilkan oleh Text2Video-Zero mempunyai artifak/herotan pada bendera, manakala ModelScope dan DirecT2V tidak dapat menjana kecerunan bendera yang berkibar dengan lancar ditiup angin. Walau bagaimanapun, seperti yang ditunjukkan di tengah-tengah Rajah 5, video yang dihasilkan oleh GPT4Motion boleh menunjukkan perubahan berterusan kedutan dan riak dalam bendera di bawah pengaruh graviti dan angin.

Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah

Keputusan semua garis dasar tidak konsisten dengan gesaan pengguna, seperti yang ditunjukkan dalam baris kedua dalam Rajah 8. Walaupun video AnimateDiff dan ModelScope mencerminkan perubahan dalam aliran air, mereka tidak dapat menangkap kesan fizikal air yang dituangkan ke dalam cawan. Sebaliknya, video yang dihasilkan oleh Text2VideoZero dan DirecT2V mencipta cawan yang sentiasa bergegar. Sebaliknya, seperti yang ditunjukkan dalam Rajah 7 (kiri), video yang dihasilkan oleh GPT4Motion dengan tepat menggambarkan pergolakan apabila aliran air berlanggar dengan cawan, dan kesannya lebih realistik

Pembaca yang berminat boleh membaca kertas asal untuk mengetahui lebih lanjut Banyak kandungan kajian

Atas ialah kandungan terperinci Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!