Modell|//m.sbmmt.com/link/36ef259d4d9967f3a81aa326160128c7
Papier|//m.sbmmt.com/link/ca0525bfe5cab4c577 d169d3343a5452
Generative KI gewinnt weltweite Aufmerksamkeit für ihre Fähigkeit, atemberaubende Bilder und sogar Videos basierend auf Textaufforderungen zu erstellen. Aktuelle generative Modelle auf dem neuesten Stand der Technik basieren auf Diffusion, einem iterativen Prozess, der Rauschen schrittweise in Bildbeispiele umwandelt. Dieser Prozess erfordert enorme Rechenressourcen und ist langsam. Bei der Generierung hochwertiger Bildbeispiele beträgt die Verarbeitungszeit eines einzelnen Bildes etwa 5 Sekunden, was normalerweise mehrere Aufrufe (20 bis 40 Mal) an das riesige neuronale Netzwerk erfordert. Netzwerk . Diese Geschwindigkeit schränkt Anwendungsszenarien ein, die eine schnelle Generierung in Echtzeit erfordern. Wie man die Erzeugungsqualität verbessern und gleichzeitig beschleunigen kann ist ein aktuelles Forschungsgebiet und das Kernziel unserer Arbeit.
SDXL-Lightning durchbricht diese Barriere durch eine innovative Technologie –Progressive Adversarial Distillation – um beispiellose Erzeugungsgeschwindigkeiten zu erreichen. Das Modell ist in der Lage, Bilder von extrem hoher Qualität und Auflösung in nur 2 oder 4 Schritten zu erzeugen, wodurch der Rechenaufwand und die Rechenzeit um den Faktor zehn reduziert werden. Unsere Methode kann für zeitüberschreitungsempfindliche Anwendungen sogar Bilder in einem Schritt generieren, wenn auch mit geringfügigen Qualitätseinbußen.
SDXL-Lightning hat nicht nur einen Geschwindigkeitsvorteil, sondern zeichnet sich auch durch die Bildqualität aus und übertrifft bisherige Beschleunigungstechnologien in Bewertungen. Es ermöglicht eine höhere Auflösung und reichere Details bei gleichzeitig guter Diversität und Bild-Text-Übereinstimmung.Geschwindigkeitsvergleich
Originalmodell (20 Schritte), SDXL-Lightning-Modell (2 Schritte)
SDXL-Lightning Das Modell kann bestehen 1 Schritt, 2 Schritte, 4 Schritte und 8 Schritte zum Generieren von Bildern. Je mehr Inferenzschritte vorhanden sind, desto besser ist die Bildqualität.
Das Folgende ist das Ergebnis von 4 Schritten –
Ein Fisch auf einem Fahrrad, farbenfrohe Kunst. Eine Nahaufnahme einer asiatischen Dame mit Sonnenbrille. Eine wunderschöne Tasse. Mona Lisa, Skizze
Ein Pickup, der eine Bergkehre hinauffährt
Haus in der Wüste, surreale Landschaften Das Folgende ist das Ergebnis von 2 Schritten – Möbeldesign für ein Wohnzimmer Eine filmische Aufnahme eines Babys. Waschbär tragen ein aufwendiges italienisches Priestergewand Ein Hund mit weichem Fell und leuchtenden Augen, der einem Spielzeug hinterherspringt, in einem gemütlichen Wohnzimmer Eine Teetasse mit Wolken Eine Familie, mittelgroße Aufnahme 🎙 Im Vergleich zu den vorherigen Methoden (Turbo und LCM) sind die mit unserer Methode generierten Bilder deutlich detaillierter und entsprechen besser dem Stil und Layout des ursprünglichen generativen Modells. Die Welle von Open Source und Open Source ist zu einer Schlüsselkraft bei der Förderung der schnellen Entwicklung künstlicher Intelligenz geworden, und Bytedance ist stolz darauf, ein Teil davon zu sein diese Welle. Unser Modell basiert auf SDXL, dem derzeit beliebtesten offenen Modell für die Textgenerierung von Bildern, das bereits über ein florierendes Ökosystem verfügt. Jetzt haben wir beschlossen, SDXL-Lightning für Entwickler, Forscher und kreative Praktiker auf der ganzen Welt zu öffnen, damit sie auf dieses Modell zugreifen und es anwenden können, um Innovation und Zusammenarbeit in der gesamten Branche weiter voranzutreiben. Beim Design von SDXL-Lightning haben wir die berücksichtigt. Viele Künstler und Entwickler in der Community haben eine Vielzahl stilisierter Bildgenerierungsmodelle erstellt, beispielsweise Cartoon- und Anime-Stile. Um diese Modelle zu unterstützen, bieten wir SDXL-Lightning als Beschleunigungs-Plug-in an, das nahtlos in diese verschiedenen Arten von SDXL-Modellen integriert werden kann, um die Bildgenerierung für verschiedene Modelle zu beschleunigen. Das Modell kann auch mit dem aktuell sehr beliebten Steuerungs-Plug-in ControlNet kombiniert werden, um eine extrem schnelle und kontrollierbare Bilderzeugung zu erreichen. Theoretisch ist die Bilderzeugung ein schrittweiser Transformationsprozess von Rauschen zu klaren Bildern. Dabei lernt das neuronale Netz die Gradienten an verschiedenen Positionen im Transformationsfluss. Die spezifischen Schritte zum Generieren eines Bildes sind wie folgt: Zuerst tasten wir zufällig eine Rauschprobe am Startpunkt des Streams ab und verwenden dann ein neuronales Netzwerk, um den Gradienten zu berechnen. Basierend auf dem Gradienten an der aktuellen Position nehmen wir kleine Anpassungen an der Probe vor und wiederholen dann den Vorgang. Mit jeder Iteration nähern sich die Proben der endgültigen Bildverteilung an, bis ein klares Bild entsteht. Bild: Generationsfluss Prozess (Bild von: //m.sbmmt.com/link/5c9b5c47258cf1499c2dc64b7072e735 Due zur Komplexität und Nichtlinearität des Generierungsflusses Gerade Linie, der Generierungsprozess muss einmalig sein. Machen Sie nur einen kleinen Schritt, um die Anhäufung von Gradientenfehlern zu reduzieren, sodass häufige Berechnungen des neuronalen Netzwerks erforderlich sind, weshalb der Berechnungsaufwand groß ist Bild: Kurvenprozess (Bild von: //m.sbmmt.com/link/d7bbb6396ce5daf19ec6cf4bb4453137 Um die Anzahl der Schritte zur Generierung von Bildern zu reduzieren, wurden viele Studien der Lösungsfindung gewidmet. Einige Studien haben Stichprobenmethoden vorgeschlagen, die den Fehler reduzieren können, während andere versucht haben, den Generierungsfluss linearer zu gestalten, sie erfordern jedoch immer noch mehr als 10 Inferenzschritte, um Bilder zu erzeugen. Dies ist in der Lage, qualitativ hochwertige Bilder in weniger als 10 Inferenzschritten zu erzeugen. Anders als bei der Berechnung des Gradienten unter der aktuellen Strömungsposition ändert die Modelldestillation das Ziel der Modellvorhersage, um die nächstweitere Strömungsposition direkt vorherzusagen Eine solche Strategie kann die Anzahl der erforderlichen Inferenzschritte erheblich reduzieren, indem wir die Anzahl der Inferenzschritte weiter reduzieren progressive Destillation. Im tatsächlichen Betrieb ist es für das Schülernetzwerk oft schwierig, die zukünftige Strömungsposition genau vorherzusagen, was dazu führt, dass Mit der Akkumulation jedes Schritts verstärken sich die vom Modell erzeugten Bilder. Um dieses Problem zu lösen, besteht unsere Strategie nicht darin, das Schülernetzwerk dazu zu zwingen, die Vorhersagen genau abzugleichen des Lehrernetzwerks, sondern damit das Schülernetzwerk die Vorhersagen des Lehrernetzwerks wahrscheinlichkeitskonsistent mit dem Lehrernetzwerk abgleicht. Mit anderen Worten, das Schülernetzwerk wird darauf trainiert, eine wahrscheinlichkeitstheoretisch mögliche Position vorherzusagen, und wir bestrafen es nicht einmal Wenn diese Position nicht ganz korrekt ist, wird dieses Ziel durch kontradiktorisches Training erreicht. Ein zusätzliches diskriminierendes Netzwerk wird eingeführt, um eine Verteilungsanpassung der Ergebnisse des Schüler- und Lehrernetzwerks zu erreichen. Dies ist ein kurzer Überblick über unsere Forschungsmethoden (SDXL-Lightning
Das Modell unterstützt auch ComfyUI, die beliebteste Generationssoftware in der Open-Source-Community. Das Modell kann direkt zur Verwendung geladen werden:
4. Zu technischen Details
Das obige ist der detaillierte Inhalt vonDas schnellste Modell mit einer Auflösung von 1024, das offene ByteDance Vincent Graph-Modell SDXL-Lightning, wurde veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!