オーディオ生成の分野で良いニュースがあります。Stability AI は、高品質のオーディオ データを生成できるオープン モデル Stable Audio Open の発売を発表しました。
プロジェクトアドレス: https://huggingface.co/stabilityai/stable-audio-open-1.0
Stability AI の商用 Stable Audio 製品 (最大 3 分間のより長く一貫した音楽トラックを生成できます) を使用すると、 Stable Audio Open は、シンプルなテキスト配信を通じて最大 47 秒の高品質オーディオ データを生成します。
このモックアップは音楽制作とサウンドデザインのために作成されました。これには、ドラムビート、楽器のリフ、アンビエントサウンド、フォーリー録音、および音楽制作やサウンドデザインに使用するその他のオーディオサンプルが含まれています。音楽の短いスニペットを生成できますが、完全な曲、メロディー、ボーカル用には最適化されていません。
Stable Audio Open の主な利点は、ユーザーが独自のカスタム オーディオ データに基づいてモデルを微調整できることです。
たとえば、これはドラマーが独自のドラム録音サンプルに基づいて微調整して生成した新しいビートです: 森で鳥が歌うオーディオを生成します: 次に、「毎回動く」ロック ミュージックを生成します。 : トレーニングの詳細とデータセット
Stable+Audio+Open は、Transformer アーキテクチャに基づく潜在的な拡散モデルです。波形を管理可能なシーケンス長に圧縮するオートエンコーダ、テキスト コンディショニングのための T5 ベースのテキスト エンベディング、オートエンコーダとテキスト エンベディング内で動作する Transformer ベースの拡散 (DiT) モデルの 3 つのコンポーネントで構成されます。このモデルは、空間効率と音声生成の品質のバランスを取るように設計されています。
内部音楽ジェネレーターの間で、Stability を含む一部のジェネレーターの人気が高まるにつれて、著作権の問題や、一部のジェネレーター作成者による著作権乱用の可能性が注目されるようになりました。ただし、ジェネレーターの作成者の中には、注目を集める方法で著作権を使用できる人もいます。
このモデルのトレーニングでは、安定性と人工知能がトレーニング データの品質を監視し、モデルの安定性を確保します。かつてこの会社は、ヴィンセント グラフ モデルのトレーニングにおける「著作権問題」が原因で、深い論争に巻き込まれました。したがって、Stable+Audio+Open は、FreeSound および Free Music Archive のオーディオ データを使用してトレーニングされ、著作権で保護された素材や専有素材が使用されていないことが保証されます。これにより、Stable+Audio+Open を使用する個人または組織が著作権や所有権を侵害しないことが保証されます。
データ セットには合計 486492 のオーディオ レコードが含まれており、そのうち 472618 は Freesound からのもの、13874 は Free Music Archive からのものです。すべてのオーディオ ファイルは CC0、CC BY、または CC Sampling+ ライセンスを取得しています。このデータはオートエンコーダーと DiT のトレーニングに使用され、研究者らはテキスト コンディショニングに公開されている事前トレーニング済み T5 モデル (t5 ベース) を使用しました。
トレーニングを開始する前に、研究者は詳細な分析を実施して、トレーニング データに著作権で保護された未許可の音楽が存在しないことを確認しました。
彼らは最初に、AudioSet カテゴリに基づいた PANN の音楽分類子を使用して、FreeSound 内の音楽サンプルを識別しました。特定された音楽サンプルには、しきい値 0.15 (PANN の出力確率の範囲は 0 ~ 1) で音楽関連カテゴリに属すると予測される少なくとも 30 秒の音楽が含まれています。
識別された音楽サンプルは、著作権で保護された音楽が存在しないことを確認するために、信頼できるコンテンツ検出会社である Audible Magic の識別サービスに送信されます。 Audible Magic は著作権で保護されていると思われる音楽にフラグを立て、これらはデータセットでトレーニングする前に削除されます。削除されたコンテンツのほとんどは、著作権で保護されたBGMを伴うライブ録音でした。上記の処理の後、研究者は 266324 CC0、194840 CC-BY、および 11454 CC サンプル + 音声記録を取得しました。
最後に確認する必要があるのは、FMA サブセットに著作権で保護されたコンテンツが存在しないことです。この場合、FMA サブセットには音楽信号が含まれるため、手順が少し異なります。研究者は、著作権で保護された音楽の大規模なデータベースに対してメタデータ検索を実行し、一致する可能性のあるものにフラグを立て、人間が個別に確認します。このようなプロセスを経て、最終的に 8967 CC-BY と 4907 CC0 の音楽が得られました。
制限事項
Stable Audio Open 1.0 オーディオ生成モデルとして、次のようないくつかの制限もあります。
はリアルなサウンドを生成できません。
は英語の説明でトレーニングされており、他の言語ではうまく機能しません。
はすべての音楽スタイルや文化に適用できません。トレーニング データに多様性がありません。利用可能なさまざまな音楽ジャンルや効果音では同様にうまく機能しないことがあります
どのタイプのテキスト記述が最良の生成結果をもたらすかを評価するのが難しい場合があり、満足のいく結果を達成するにはエンジニアリングが必要になる場合があります。
Stable Audio Open はオープン モデルですが、技術的にはオープン ソースではないことに注意してください。 Stable Audio Open は、実際の Open Source Initiative (OSI) 承認のライセンスを使用しませんが、Stability AI 非営利研究コミュニティ契約ライセンスに基づいてユーザーに提供されます。
同時に、Stable Audio Open を商業目的で使用することは利用規約で禁止されています。さらに、異なる音楽スタイルや文化間で、または英語以外の言語で説明された場合も同様にうまく機能しません。
安定性 AI はこれをトレーニング データのせいにします。モデルの説明には、「データ ソースには多様性が欠けている可能性があり、データセット内ですべての文化が均等に表現されているわけではありません。モデルによって生成されたサンプルはトレーニング データのバイアスを反映します
」と書かれています。以上がStability AI のオープンソースの 47 秒オーディオ生成モデルは、昆虫、鳥、ロック ミュージック、ドラムのビートを生成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。