Es gibt gute Nachrichten im Bereich der Audioerzeugung: Stability AI hat gerade die Einführung des offenen Modells Stable Audio Open angekündigt, das hochwertige Audiodaten generieren kann.
Projektadresse: https://huggingface.co/stabilityai/stable-audio-open-1.0
Mit dem kommerziellen Stable Audio-Produkt von Stability AI (das längere, zusammenhängende Musiktitel von bis zu drei Minuten erzeugen kann), Stable Audio Open generiert bis zu 47 Sekunden hochwertige Audiodaten durch einfache Textübermittlung.
Dieses Mockup wurde für die Musikproduktion und das Sounddesign erstellt. Es umfasst Drum-Beats, Instrumental-Riffs, Umgebungsgeräusche, Foley-Aufnahmen und andere Audio-Samples zur Verwendung in der Musikproduktion und im Sounddesign. Es kann zwar kurze Musikausschnitte generieren, ist jedoch nicht für vollständige Songs, Melodien oder Gesang optimiert.
Der Hauptvorteil von Stable Audio Open besteht darin, dass Benutzer das Modell basierend auf ihren eigenen benutzerdefinierten Audiodaten verfeinern können.
Hier ist zum Beispiel ein neuer Beat, der von einem Schlagzeuger generiert wurde, der sein eigenes Drum-Sound-Aufnahmebeispiel verfeinert: Audio von singenden Vögeln im Wald erzeugen: Dann generieren Sie eine „jedes Mal bewegen“-Rockmusik : Trainingsdetails und Datensatz
Stable+Audio+Open ist ein latentes Diffusionsmodell, das auf der Transformer-Architektur basiert. Besteht aus drei Komponenten: einem Autoencoder, der Wellenformen in überschaubare Sequenzlängen komprimiert, einer T5-basierten Texteinbettung zur Textkonditionierung und einem Transformer-basierten Diffusionsmodell (DiT), das innerhalb des Autoencoders und der Texteinbettung arbeitet. Dieses Modell soll ein Gleichgewicht zwischen räumlicher Effizienz und Qualität der Spracherzeugung herstellen.
Da einige Generatoren, darunter Stability, bei internen Musikgeneratoren immer beliebter werden, sind Fragen des Urheberrechts und möglicher Urheberrechtsmissbrauch durch einige Generator-Ersteller in den Fokus gerückt. Einige Ersteller von Generatoren sind jedoch in der Lage, das Urheberrecht auf eine Art und Weise zu nutzen, die sie ins Rampenlicht rückt.
Bei diesem Modelltraining überwachen Stabilität und künstliche Intelligenz die Qualität der Trainingsdaten, um die Stabilität des Modells sicherzustellen. Das „Urheberrechtsproblem“ bei der Schulung von Vincentian-Graphmodellen führte einst dazu, dass dieses Unternehmen in heftige Kontroversen verwickelt wurde. Daher wird Stable+Audio+Open mit Audiodaten von FreeSound und Free Music Archive trainiert, um sicherzustellen, dass kein urheberrechtlich geschütztes oder proprietäres Material verwendet wird. Dadurch wird sichergestellt, dass Personen oder Organisationen, die Stable+Audio+Open verwenden, keine Urheberrechte oder Eigentumsrechte verletzen.
Der Datensatz enthält insgesamt 486492 Audioaufzeichnungen, davon stammen 472618 von Freesound und 13874 von Free Music Archive. Alle Audiodateien sind CC0, CC BY oder CC Sampling+ lizenziert. Diese Daten wurden verwendet, um den Autoencoder und DiT zu trainieren, und die Forscher verwendeten ein öffentlich verfügbares vorab trainiertes T5-Modell (t5-base) für die Textkonditionierung.
Vor Beginn des Trainings führten die Forscher eine eingehende Analyse durch, um sicherzustellen, dass die Trainingsdaten keine unautorisierte urheberrechtlich geschützte Musik enthielten.
Sie identifizierten zunächst Musikbeispiele in FreeSound mithilfe des Musikklassifikators PANN basierend auf AudioSet-Kategorien. Die identifizierten Musikbeispiele enthalten mindestens 30 Sekunden Musik, die voraussichtlich zur musikbezogenen Kategorie mit einem Schwellenwert von 0,15 gehören (PANNs-Ausgabewahrscheinlichkeiten liegen zwischen 0 und 1).
Identifizierte Musikproben werden an den Identifizierungsdienst von Audible Magic, einem vertrauenswürdigen Unternehmen zur Inhaltserkennung, gesendet, um sicherzustellen, dass keine urheberrechtlich geschützte Musik vorhanden ist. Audible Magic markiert Musik, die urheberrechtlich geschützt zu sein scheint, und entfernt diese vor dem Training mit dem Datensatz. Bei den gelöschten Inhalten handelte es sich größtenteils um Live-Aufnahmen mit urheberrechtlich geschützter Hintergrundmusik. Nach der obigen Verarbeitung erhielt der Forscher 266324 CC0-, 194840 CC-BY- und 11454 CC-Samples + Audioaufzeichnungen.
Als letztes muss sichergestellt werden, dass die FMA-Teilmenge keine urheberrechtlich geschützten Inhalte enthält. In diesem Fall ist die Vorgehensweise etwas anders, da die FMA-Teilmenge Musiksignale enthält. Forscher führen Metadatensuchen in großen Datenbanken urheberrechtlich geschützter Musik durch und kennzeichnen mögliche Übereinstimmungen, die einzeln von Menschen überprüft werden. Nach diesem Vorgang wurden schließlich 8967 CC-BY- und 4907 CC0-Musik erhalten.
Einschränkungen
Stable Audio Open 1.0 Als Audio-Generierungsmodell gibt es auch einige Einschränkungen, darunter:
kann keine realistischen Klänge erzeugen;
wird mit englischen Beschreibungen trainiert und wird in anderen Sprachen nicht so gut funktionieren;
kann nicht auf alle Musikstile und Kulturen angewendet werden, mangelnde Vielfalt bei den Trainingsdaten, Modell May Bei den verschiedenen verfügbaren Musikgenres und Soundeffekten ist die Leistung nicht gleich gut.
Manchmal ist es schwierig zu beurteilen, welche Art von Textbeschreibung die besten Generierungsergebnisse liefert, und es kann Ingenieursarbeit erfordern, um ein beeindruckendes, zufriedenstellendes Ergebnis zu erzielen.
Es ist erwähnenswert, dass Stable Audio Open ein offenes Modell ist, aber technisch gesehen kein Open Source. Stable Audio Open verwendet keine tatsächliche, von der Open Source Initiative (OSI) genehmigte Lizenz, sondern wird Benutzern im Rahmen der Stability AI Non-Commercial Research Community Agreement-Lizenz zur Verfügung gestellt.
Gleichzeitig darf Stable Audio Open nicht für kommerzielle Zwecke genutzt werden; die Nutzungsbedingungen verbieten dies. Darüber hinaus funktioniert es nicht gleich gut in verschiedenen Musikstilen und Kulturen oder wenn es in anderen Sprachen als Englisch beschrieben wird.
Die Stabilitäts-KI macht dafür die Trainingsdaten verantwortlich. In der Modellbeschreibung heißt es: „Den Datenquellen mangelt es möglicherweise an Diversität, und nicht alle Kulturen sind im Datensatz gleichermaßen vertreten. Die vom Modell generierten Stichproben spiegeln Verzerrungen in den Trainingsdaten wider.“
Das obige ist der detaillierte Inhalt vonDas Open-Source-47-Sekunden-Audiogenerierungsmodell von Stability AI kann Insekten, Vögel, Rockmusik und Trommelschläge erzeugen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!