IT House News pada 9 Januari, Meta baru-baru ini mengumumkan rangka kerja AI yang dipanggil audio2photoreal, yang boleh menjana satu siri model watak NPC yang realistik dan secara automatik "segerakkan bibir" model watak dengan bantuan tindakan mengalih suara yang sedia ada.
▲ Sumber gambar Laporan penyelidikan meta (sama di bawah)
IT House mengetahui daripada laporan penyelidikan rasmi bahawa selepas menerima fail alih suara, rangka kerja Audio2photoreal mula-mula menjana satu siri model NPC, dan kemudian menggunakan teknologi kuantisasi dan algoritma resapan untuk menjana tindakan model Teknologi kuantifikasi menyediakan rujukan sampel tindakan untuk rangka kerja . Algoritma resapan digunakan untuk menambah baik kesan gerakan aksara yang dihasilkan oleh bingkai.
Para penyelidik menyebut bahawa rangka kerja itu boleh menjana "sampel tindakan berkualiti tinggi" pada 30 FPS, dan juga boleh mensimulasikan "tindakan kebiasaan" manusia yang tidak disengajakan seperti "menuding jari," "memusingkan pergelangan tangan" atau "mengangkat bahu" semasa perbualan.
Para penyelidik memetik hasil percubaan mereka sendiri Dalam eksperimen terkawal, 43% daripada penilai "sangat berpuas hati" dengan adegan dialog watak yang dihasilkan oleh rangka kerja Oleh itu, penyelidik percaya bahawa rangka kerja Audio2photoreal boleh menjana "lebih dinamik dan ekspresif "berbanding dengan produk pesaing dalam industri. memaksa" tindakan.
Dilaporkan bahawa pasukan penyelidik kini telah mendedahkan kod dan set data yang berkaitan di GitHub Rakan-rakan yang berminat boleh klik di sini untuk mengakses.
Atas ialah kandungan terperinci Meta melancarkan rangka kerja AI audio-ke-imej untuk menghasilkan alih suara adegan dialog watak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!