Meta baru-baru ini melancarkan model penjanaan bunyi AI yang dipanggil Audiobox. Model ini boleh menerima input suara dan teks, dan pengguna boleh menjana audio yang diperlukan melalui penerangan suara dan teks
Dilaporkan model ini berdasarkan model Voicebox AI yang dilancarkan oleh Meta pada Jun tahun ini dikatakan mampu menjana pelbagai bunyi persekitaran dan pertuturan perbualan semula jadi, dan menyepadukan keupayaan penjanaan audio dan penyuntingan supaya pengguna boleh bebas. menjana audio yang mereka perlukan.
Meta berkata menjana audio berkualiti tinggi memerlukan sejumlah besar perpustakaan audio dan pengetahuan domain yang mendalam, tetapi sukar bagi orang ramai untuk mendapatkan sumber ini. Syarikat melancarkan model ini untuk menurunkan ambang penjanaan bunyi dan memudahkannya sesiapa sahaja untuk mencipta video dan permainan Kesan bunyi untuk senario aplikasi lain.
IT House mendapati model Audiobox ini berdasarkan mekanisme "bunyi berpandu" Voicebox untuk memudahkan penjanaan audio sasaran, dan bekerjasama dengan kaedah penjanaan model resapan "padanan aliran" untuk mencapai fungsi "pengisian audio" )" untuk menjana berbilang -audio berlapis.
Ujian meta menjana audio hujan dengan bunyi ribut petir dan memasukkan satu siri ayat gesaan untuk tunjuk cara, seperti "bunyi air mengalir diiringi kicauan burung", "wanita muda bercakap dalam irama yang tinggi dan pantas", dsb. .; ia juga menguji input serentak gesaan audio dan teks orang untuk menjana pertuturan dengan emosi ("sedih dan perlahan") dan bunyi latar (berada di gereja).
Meta mendakwa bahawa Audiobox berjaya mengalahkan AudioLDM2, VoiceLDM dan TANGO dari segi kualiti bunyi dan "ketepatan kandungan yang dijana", mengatasi model penjanaan audio terbaik sedia ada.
Audiobox kini dibuka kepada penyelidik dan ahli akademik khusus untuk kegunaan percubaan untuk menguji kualiti dan keselamatan model Meta mendakwa bahawa mereka merancang untuk "mendedahkan model itu kepada umum dalam beberapa minggu."
Atas ialah kandungan terperinci Meta melancarkan Audiobox model audio AI, menyokong input suara dan teks serentak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!