Model penjanaan audio 47 saat sumber terbuka AI kestabilan boleh menjana serangga, burung, muzik rock dan rentak gendang.-AI-php.cn

Model penjanaan audio 47 saat sumber terbuka AI kestabilan boleh menjana serangga, burung, muzik rock dan rentak gendang.

WBOY

Lepaskan： 2024-06-10 09:37:36

asal

1040 orang telah melayarinya

Terdapat berita baik dalam bidang penjanaan audio: Stability AI baru sahaja mengumumkan pelancaran model terbuka Stable Audio Open, yang boleh menjana data audio berkualiti tinggi.

Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成

Alamat projek: https://huggingface.co/stabilityai/stable-audio-open-1.0

Dengan produk Stable Audio komersial Stability AI (yang boleh menjana trek muzik yang lebih panjang dan koheren sehingga tiga minit ), Audio Open Stabil menjana sehingga 47 saat data audio berkualiti tinggi melalui penghantaran teks ringkas.

Mockup ini dicipta untuk penghasilan muzik dan reka bentuk bunyi. Ia termasuk rentak dram, riff instrumental, bunyi ambien, rakaman foley dan sampel audio lain untuk digunakan dalam penghasilan muzik dan reka bentuk bunyi. Walaupun ia boleh menjana coretan muzik pendek, ia tidak dioptimumkan untuk lagu penuh, melodi atau vokal.

Kelebihan utama Stable Audio Open ialah pengguna boleh memperhalusi model berdasarkan data audio tersuai mereka sendiri.

Sebagai contoh, berikut ialah rentak baharu yang dijana oleh pemain drum yang menala halus berdasarkan sampel rakaman dramnya sendiri: Jana audio burung menyanyi di hutan: Kemudian jana muzik rock "bergerak setiap masa" : Butiran latihan dan set data

Stable+Audio+Open ialah model resapan terpendam berdasarkan seni bina Transformer. Terdiri daripada tiga komponen: pengekod automatik yang memampatkan bentuk gelombang ke dalam panjang jujukan yang boleh diurus, pembenaman teks berasaskan T5 untuk pelaziman teks dan model penyebaran berasaskan Transformer (DiT) yang beroperasi dalam pengekod automatik dan pembenaman teks. Model ini direka bentuk untuk mencapai keseimbangan antara kecekapan spatial dan kualiti penjanaan pertuturan.

Antara penjana muzik dalaman, apabila sesetengah penjana, termasuk Kestabilan, menjadi semakin popular, isu hak cipta dan kemungkinan penyalahgunaan hak cipta oleh sesetengah pencipta penjana telah menjadi tumpuan. Walau bagaimanapun, sesetengah pencipta penjana boleh menggunakan hak cipta sebagai cara untuk mendapat perhatian.

Dalam latihan model ini, kestabilan dan kecerdasan buatan akan memantau kualiti data latihan untuk memastikan kestabilan model. "Isu hak cipta" dalam latihan model graf Vincentian pernah menyebabkan syarikat ini terlibat dalam kontroversi. Oleh itu, Stable+Audio+Open dilatih menggunakan data audio daripada FreeSound dan Free Music Archive untuk memastikan tiada bahan berhak cipta atau proprietari digunakan. Ini memastikan bahawa mana-mana orang atau organisasi yang menggunakan Stable+Audio+Open tidak akan melanggar sebarang hak cipta atau hak proprietari.

Set data mengandungi sejumlah 486492 rekod audio, yang mana 472618 daripada Freesound dan 13874 daripada Arkib Muzik Percuma. Semua fail audio berlesen CC0, CC BY atau CC Sampling+. Data ini digunakan untuk melatih pengekod auto dan DiT, dan penyelidik menggunakan model T5 pra-terlatih yang tersedia secara terbuka (t5-base) untuk pelaziman teks.

Sebelum memulakan latihan, penyelidik menjalankan analisis mendalam untuk memastikan tiada muzik berhak cipta yang tidak dibenarkan dalam data latihan.

Mereka mula-mula mengenal pasti sampel muzik dalam FreeSound menggunakan pengelas muzik PANN berdasarkan kategori AudioSet. Sampel muzik yang dikenal pasti mempunyai sekurang-kurangnya 30 saat muzik yang diramalkan tergolong dalam kategori berkaitan muzik dengan ambang 0.15 (kebarangkalian keluaran PANN berjulat dari 0 hingga 1).

Sampel muzik yang dikenal pasti dihantar ke perkhidmatan pengenalan Audible Magic, syarikat pengesan kandungan yang dipercayai, untuk memastikan tiada muzik berhak cipta hadir. Audible Magic membenderakan muzik yang nampaknya mempunyai hak cipta, dan ini dialih keluar sebelum latihan pada set data. Kebanyakan kandungan yang dipadamkan adalah rakaman langsung dengan muzik latar belakang berhak cipta. Selepas pemprosesan di atas, penyelidik memperoleh 266324 CC0, 194840 CC-BY dan 11454 CC sampel + rekod audio.

Perkara terakhir yang perlu dipastikan ialah tiada kandungan berhak cipta dalam subset FMA. Dalam kes ini prosedurnya berbeza sedikit kerana subset FMA mengandungi isyarat muzik. Penyelidik menjalankan carian metadata terhadap pangkalan data besar muzik berhak cipta dan membenderakan sebarang kemungkinan padanan, yang disemak secara individu oleh manusia. Selepas proses ini, 8967 CC-BY dan 4907 CC0 muzik akhirnya diperolehi.

Limitations

Stable Audio Open 1.0 Sebagai model penjanaan audio, terdapat juga beberapa had, termasuk:

. tidak berprestasi sama baik pada pelbagai genre muzik dan kesan bunyi yang tersedia

Kadang-kadang sukar untuk menilai jenis perihalan teks yang memberikan hasil penjanaan terbaik, dan kejuruteraan mungkin diperlukan untuk mencapai hasil yang memuaskan.
Perlu diperhatikan bahawa Stable Audio Open ialah model terbuka, tetapi secara teknikal ia bukan sumber terbuka. Terbuka Audio Stabil tidak menggunakan lesen yang diluluskan Inisiatif Sumber Terbuka (OSI) sebenar, tetapi diberikan kepada pengguna di bawah Lesen Perjanjian Komuniti Penyelidikan Bukan Komersial Kestabilan AI.
Pada masa yang sama, Stable Audio Open tidak boleh digunakan untuk tujuan komersial; Tambahan pula, ia tidak menunjukkan prestasi yang sama baik merentas gaya dan budaya muzik yang berbeza, atau apabila diterangkan dalam bahasa selain bahasa Inggeris.
Kestabilan AI menyalahkan ini pada data latihan. Perihalan model berbunyi: "Sumber data mungkin kekurangan kepelbagaian, dan tidak semua budaya diwakili secara sama dalam set data. Sampel yang dijana oleh model akan mencerminkan bias dalam data latihan

Atas ialah kandungan terperinci Model penjanaan audio 47 saat sumber terbuka AI kestabilan boleh menjana serangga, burung, muzik rock dan rentak gendang.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!