Meta melancarkan rangka kerja AI audio-ke-imej untuk menghasilkan alih suara adegan dialog watak-AI-php.cn

Meta melancarkan rangka kerja AI audio-ke-imej untuk menghasilkan alih suara adegan dialog watak

PHPz

Lepaskan： 2024-01-13 11:39:06

ke hadapan

988 orang telah melayarinya

IT House News pada 9 Januari, Meta baru-baru ini mengumumkan rangka kerja AI yang dipanggil audio2photoreal, yang boleh menjana satu siri model watak NPC yang realistik dan secara automatik "segerakkan bibir" model watak dengan bantuan tindakan mengalih suara yang sedia ada.

用配音生成人物对话场景，Meta 推出 audio2photoreal AI 框架

▲ Sumber gambar Laporan penyelidikan meta (sama di bawah)

IT House mengetahui daripada laporan penyelidikan rasmi bahawa selepas menerima fail alih suara, rangka kerja Audio2photoreal mula-mula menjana satu siri model NPC, dan kemudian menggunakan teknologi kuantisasi dan algoritma resapan untuk menjana tindakan model Teknologi kuantifikasi menyediakan rujukan sampel tindakan untuk rangka kerja . Algoritma resapan digunakan untuk menambah baik kesan gerakan aksara yang dihasilkan oleh bingkai.

Para penyelidik menyebut bahawa rangka kerja itu boleh menjana "sampel tindakan berkualiti tinggi" pada 30 FPS, dan juga boleh mensimulasikan "tindakan kebiasaan" manusia yang tidak disengajakan seperti "menuding jari," "memusingkan pergelangan tangan" atau "mengangkat bahu" semasa perbualan.

用配音生成人物对话场景，Meta 推出 audio2photoreal AI 框架

Para penyelidik memetik hasil percubaan mereka sendiri Dalam eksperimen terkawal, 43% daripada penilai "sangat berpuas hati" dengan adegan dialog watak yang dihasilkan oleh rangka kerja Oleh itu, penyelidik percaya bahawa rangka kerja Audio2photoreal boleh menjana "lebih dinamik dan ekspresif "berbanding dengan produk pesaing dalam industri. memaksa" tindakan.

用配音生成人物对话场景，Meta 推出 audio2photoreal AI 框架

Dilaporkan bahawa pasukan penyelidik kini telah mendedahkan kod dan set data yang berkaitan di GitHub Rakan-rakan yang berminat boleh klik di sini untuk mengakses.

Atas ialah kandungan terperinci Meta melancarkan rangka kerja AI audio-ke-imej untuk menghasilkan alih suara adegan dialog watak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!