Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform' der besten visuellen Teams deutscher Universitäten-KI-php.cn

Ein Bild wird in 10 Millisekunden generiert, und 6.000 Bilder werden in 1 Minute generiert. Was ist das Konzept?

Im Bild unten können Sie die Superkraft der KI tief spüren.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Selbst wenn Sie weiterhin neue Elemente zu den durch die zweidimensionalen Mädchenbilder generierten Eingabeaufforderungen hinzufügen, blitzen die Bildänderungen verschiedener Stilrichtungen sofort auf.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Eine solch erstaunliche Bilderzeugungsgeschwindigkeit in Echtzeit ist das Ergebnis von StreamDiffusion, vorgeschlagen von Forschern der UC Berkeley, der Universität Tsukuba, Japan usw.

Bei dieser brandneuen Lösung handelt es sich um einen Diffusionsmodellprozess, der eine interaktive Bilderzeugung in Echtzeit mit über 100 Bildern pro Sekunde ermöglicht.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Papieradresse: https://arxiv.org/abs/2312.12491

StreamDiffusion dominierte direkt GitHub, nachdem es Open Source war, und erhielt 3,7.000 Sterne.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Pictures

StreamDiffusion verwendet innovativ eine Stapelverarbeitungsstrategie anstelle der Sequenzentrauschung, die etwa 1,5-mal schneller ist als herkömmliche Methoden. Darüber hinaus kann der vom Autor vorgeschlagene neue RCFG-Algorithmus (Residuenklassifizierer-freie Führung) 2,05-mal schneller sein als die herkömmliche klassifikatorfreie Führung.

Das Bemerkenswerteste ist, dass die neue Methode auf der RTX 4090 eine Bild-zu-Bild-Generierungsgeschwindigkeit von 91,07 fps erreichen kann.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Zukünftig kann die schnelle Generierung von StreamDiffusion in verschiedenen Szenarien wie dem Metaversum, der Wiedergabe von Videospielgrafiken und dem Live-Video-Streaming die hohen Durchsatzanforderungen dieser Anwendungen erfüllen.

Insbesondere die Bilderzeugung in Echtzeit kann leistungsstarke Bearbeitungs- und Kreativfunktionen für diejenigen bieten, die in der Spieleentwicklung und Videowiedergabe arbeiten.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Speziell für die Echtzeit-Bilderzeugung entwickelt

Derzeit erfordert die Anwendung von Diffusionsmodellen in verschiedenen Bereichen Diffusionspipelines mit hohem Durchsatz und geringer Latenz, um die Effizienz der Mensch-Computer-Interaktion sicherzustellen

Ein typisches Beispiel ist die Verwendung des Diffusionsmodells zur Erstellung eines virtuellen Charakters VTuber, der reibungslos auf Benutzereingaben reagieren kann.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Um den hohen Durchsatz und die Echtzeit-Interaktionsfähigkeiten zu verbessern, konzentriert sich die aktuelle Forschungsrichtung hauptsächlich auf die Reduzierung der Anzahl der Entrauschungsiterationen, beispielsweise von 50 Iterationen auf mehrere oder sogar eins.

Eine gängige Strategie besteht darin, das mehrstufige Diffusionsmodell in mehrere Schritte zu verfeinern und den Diffusionsprozess mithilfe von ODEs zu rekonstruieren. Zur Verbesserung der Effizienz wurden auch Diffusionsmodelle quantifiziert.

In der neuesten Arbeit gingen die Forscher von der orthogonalen Richtung aus und stellten StreamDiffusion vor – eine Echtzeit-Diffusionspipeline, die für einen hohen Durchsatz der interaktiven Bilderzeugung ausgelegt ist.

Bestehende Modellentwurfsarbeiten können in StreamDiffusion integriert werden und gleichzeitig N-stufige Rauschunterdrückungs-Diffusionsmodelle verwenden, um einen hohen Durchsatz aufrechtzuerhalten und Benutzern flexiblere Optionen zu bieten

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Bildgenerierung in Echtzeit｜Erste und zweite Spalte: Beispiele für KI-gestütztes Echtzeitzeichnen, dritte Spalte: Echtzeit-Rendering von 2D-Illustrationen aus 3D-Avataren. Spalten 4 und 5: Live-Kamerafilter. Echtzeit-Bildgenerierung |. Die erste und zweite Spalte zeigen Beispiele für KI-gestütztes Echtzeit-Zeichnen, und die dritte Spalte zeigt den Prozess der Generierung von 2D-Illustrationen durch das Rendern von 3D-Avataren in Echtzeit. Die vierte und fünfte Spalte zeigen die Wirkung von Echtzeit-Kamerafiltern

Wie wird es konkret umgesetzt?

StreamDiffusion Architecture

StreamDiffusion ist eine neue Diffusionspipeline zur Erhöhung des Durchsatzes.

Es besteht aus mehreren Schlüsselteilen:

Streaming-Stapelverarbeitungsstrategie, restklassifikatorfreie Führung (RCFG), Eingabe- und Ausgabewarteschlange, stochastischer Ähnlichkeitsfilter (Stochastic Similarity Filter), Vorberechnungsprogramm, Mikro-Autoencoder-Modellbeschleunigung Werkzeuge.

Batch-Entrauschen

Im Diffusionsmodell werden die Entrauschungsschritte nacheinander ausgeführt, was dazu führt, dass sich die Verarbeitungszeit von U-Net proportional zur Anzahl der Schritte erhöht.

Um jedoch hochauflösende Bilder zu erzeugen, muss die Anzahl der Schritte erhöht werden.

Um das Problem der Erzeugung hoher Latenz bei der interaktiven Diffusion zu lösen, schlugen Forscher eine Methode namens Stream Batch vor.

Wie in der Abbildung unten gezeigt, wird bei den neuesten Methoden nicht darauf gewartet, dass ein einzelnes Bild vollständig entrauscht wird, bevor das nächste Eingabebild verarbeitet wird, sondern das nächste Eingabebild nach jedem Entrauschungsschritt akzeptiert.

Dies bildet einen Entrauschungsstapel, und die Entrauschungsschritte für jedes Bild sind gestaffelt.

Durch die Verkettung dieser verschachtelten Rauschunterdrückungsschritte zu einem Stapel können Forscher U-Net verwenden, um Stapel aufeinanderfolgender Eingaben effizient zu verarbeiten.

Das im Zeitschritt t kodierte Eingabebild wird im Zeitschritt t+n generiert und dekodiert, wobei n die Anzahl der Entrauschungsschritte ist.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Residual Classifier-Free Guidance (RCFG)

Common Classifier-Free Guidance (CFG) ist eine Methode, die einen Vektor zwischen einem unbedingten oder negativen bedingten Term und einem primitiven bedingten Term berechnet . Ein Algorithmus zur Verstärkung der Wirkung des ursprünglichen Zustands.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Dies kann Vorteile bringen, wie z. B. die Verstärkung der Wirkung der Aufforderung.

Um jedoch negatives bedingtes Restrauschen zu berechnen, muss jede latente Eingabevariable mit einer negativen bedingten Einbettung gepaart und zu jedem Inferenzzeitpunkt an U-Net übergeben werden.

Um dieses Problem zu lösen, stellt der Autor ein innovatives Restklassifikator-freies Bootstrapping (RCFG) vor.

Diese Methode verwendet virtuelles Restrauschen, um negative Bedingungen anzunähern, sodass wir nur negatives bedingtes Rauschen berechnen müssen. Dadurch werden die zusätzlichen U-Net-Inferenz-Rechenkosten bei negativer bedingter Einbettung erheblich reduziert zum Ausgabebild erfordert nicht zu vernachlässigende zusätzliche Verarbeitungszeit.

Um zu vermeiden, dass diese Bildverarbeitungszeiten der Inferenzpipeline des neuronalen Netzwerks hinzugefügt werden, trennen wir die Bildvor- und -nachbearbeitung in verschiedene Threads, um eine parallele Verarbeitung zu ermöglichen.

Darüber hinaus kann es durch die Verwendung der Eingabetensorwarteschlange auch vorübergehende Unterbrechungen im Eingabebild aufgrund von Geräteausfällen oder Kommunikationsfehlern bewältigen und so ein reibungsloses Streaming ermöglichen.

Bilder

Stochastischer Ähnlichkeitsfilter

Wie unten gezeigt, umfasst die Kerndiffusionsinferenzpipeline VAE und U-Net.

Verbessert die Geschwindigkeit der Inferenzpipeline und ermöglicht die Bildgenerierung in Echtzeit durch Einführung von Rauschunterdrückungs-Batching und vorberechnetem Hinweis-Einbettungs-Cache, Sampled-Noise-Cache und Scheduler-Wert-Cache.

Stochastische Ähnlichkeitsfilterung (SSF) wurde entwickelt, um den GPU-Stromverbrauch zu senken und kann die Diffusionsmodell-Pipeline dynamisch schließen, wodurch eine schnelle und effiziente Echtzeitinferenz erreicht wird.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bild

Vorberechnung

Die U-Net-Architektur erfordert sowohl latente Eingabevariablen als auch bedingte Einbettungen.

Normalerweise wird die bedingte Einbettung von der „Hinweiseinbettung“ abgeleitet und bleibt zwischen verschiedenen Frames unverändert.

Um dies zu optimieren, berechnen Forscher Hinweiseinbettungen vorab und speichern sie im Cache. Im interaktiven oder Streaming-Modus wird dieser vorberechnete Hinweis-Einbettungs-Cache abgerufen.

In U-Net wird die Berechnung von Schlüssel und Wert für jeden Frame auf der Grundlage vorberechneter Hinweiseinbettungen implementiert.

Daher haben die Forscher U-Net so modifiziert, dass diese Schlüssel- und Wertpaare gespeichert werden, wodurch es wiederverwendbar wird . Immer wenn die Eingabeaufforderung aktualisiert wird, berechnen und aktualisieren die Forscher diese Schlüssel-Wert-Paare innerhalb von U-Net neu.

Modellbeschleunigung und winzige Autoencoder

Um die Geschwindigkeit zu optimieren, haben wir das System so konfiguriert, dass es eine statische Stapelgröße und feste Eingabegrößen (Höhe und Breite) verwendet.

Dieser Ansatz stellt sicher, dass der Rechengraph und die Speicherzuweisung für eine bestimmte Eingabegröße optimiert werden, was zu einer schnelleren Verarbeitung führt.

Das bedeutet jedoch, dass Sie unterschiedliche Stapelgrößen verwenden müssen (einschließlich der Stapelgröße für den Rauschunterdrückungsschritt), wenn Sie Bilder unterschiedlicher Form (d. h. unterschiedlicher Höhe und Breite) verarbeiten müssen. Experimentelle Bewertung deutlich verbessert. Dies reduziert die Zeit im Vergleich zu herkömmlichen U-Net-Schleifen mit aufeinanderfolgenden Rauschunterdrückungsschritten um die Hälfte.

Auch bei Anwendung des neuronalen Modulbeschleunigungstools TensorRT kann die von den Forschern vorgeschlagene Stream-Batch-Verarbeitung die Effizienz der ursprünglichen sequentiellen Diffusionspipeline in verschiedenen Rauschunterdrückungsschritten deutlich verbessern.

Image

Darüber hinaus verglichen die Forscher die neueste Methode mit der von Huggingface Diffusers entwickelten AutoPipeline-ForImage2Image-Pipeline.

Der Vergleich der durchschnittlichen Inferenzzeit ist in Tabelle 1 dargestellt. Die neueste Pipeline zeigt, dass die Geschwindigkeit erheblich verbessert wurde.

Bei Verwendung von TensorRT kann StreamDiffusion eine 13-fache Beschleunigung erreichen, wenn 10 Rauschunterdrückungsschritte ausgeführt werden. Wenn nur ein einziger Rauschunterdrückungsschritt beteiligt ist, kann die Geschwindigkeitssteigerung das 59,6-fache erreichen. Selbst ohne TensorRT ist StreamDiffusion bei Verwendung der Rauschunterdrückung in einem Schritt 29,7-mal schneller als AutoPipeline und verbessert sich bei Verwendung der Rauschunterdrückung in 10 Schritten um das 8,3-fache. Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten

Bilder

Tabelle 2 vergleicht die Inferenzzeit der Strömungsdiffusionspipeline unter Verwendung von RCFG und regulärem CFG.

Bei der einstufigen Rauschunterdrückung ist die Inferenzzeit von Onetime-Negative RCFG und traditioneller CFG nahezu gleich.

Die Inferenzzeit von einmaligem RCFG und herkömmlichem CFG bei der einstufigen Rauschunterdrückung ist also nahezu gleich. Mit zunehmender Anzahl der Entrauschungsschritte wird jedoch die Verbesserung der Inferenzgeschwindigkeit von herkömmlichem CFG zu RCFG deutlicher.

In Schritt 5 der Rauschunterdrückung ist Self-Negative RCFG 2,05-mal schneller als herkömmliches CFG und Onetime-Negative RCFG 1,79-mal schneller als herkömmliches CFG. Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Danach führten die Forscher eine umfassende Bewertung des Energieverbrauchs des vorgeschlagenen SSF durch. Die Ergebnisse dieses Prozesses sind in Abbildung 6 und Abbildung 7 zu sehen.

Diese Abbildungen veranschaulichen das GPU-Nutzungsmuster bei der Anwendung von SSF (Einstellung des Schwellenwerts η auf 0,98) auf das Eingabevideo für Szenen mit periodischen statischen Merkmalen

Eine vergleichende Analyse zeigt, dass die Verwendung von SSF die GPU-Nutzung erheblich reduzieren kann, wenn es sich bei den Eingabebildern hauptsächlich um statische Bilder mit einem hohen Grad an Ähnlichkeit handelt.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Ablationsstudie

Der Einfluss verschiedener Module auf die durchschnittliche Inferenzzeit bei verschiedenen Entrauschungsschritten ist in Tabelle 3 dargestellt. Wie man sieht, wird die Reduzierung verschiedener Module im Bild-zu-Bild-Generierungsprozess überprüft. 🎙 , ohne irgendeine Form von CFG zu verwenden, weist schwache Ausrichtungshinweise auf, insbesondere bei Aspekten wie Farbänderungen oder dem Hinzufügen nicht vorhandener Elemente, die nicht effizient implementiert werden.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Im Gegensatz dazu verbessert die Verwendung von CFG oder RCFG die Möglichkeit, das Originalbild zu modifizieren, z. B. die Haarfarbe zu ändern, Körpermuster hinzuzufügen oder sogar Objekte wie Brillen einzubeziehen. Insbesondere kann die Verwendung von RCFG den Einfluss von Hinweisen im Vergleich zu Standard-CFG verstärken.

Bilder

Abschließend ist die Qualität der Standardergebnisse der Text-zu-Bild-Generierung in Abbildung 11 dargestellt.

Mit dem SD-Turbo-Modell können Sie in nur einem Schritt hochwertige Bilder wie das in Abbildung 11 gezeigte erzeugen.

Bei Verwendung der von den Forschern vorgeschlagenen Strömungsdiffusionspipeline und des SD-Turbo-Modells zur Generierung von Bildern in der Umgebung von GPU: RTX 4090, CPU: Core i9-13900K, Betriebssystem: Ubuntu 22.04.3 LTS werden über 100 fps erreicht Es ist möglich, derart hochwertige Bilder mit hoher Geschwindigkeit zu erstellen.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Netizens starteten und eine große Welle zweidimensionaler Damen kam

Der Code des neuesten Projekts ist Open Source und hat 3,7.000 Sterne auf Github gesammelt.

Bilder

Projektadresse: https://github.com/cumulo-autumn/StreamDiffusion Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten

Viele Internetnutzer haben begonnen, ihre eigenen zweidimensionalen Ehefrauen zu generieren.

Bilder

Handgezeichnete Erstellung mit 10-facher Geschwindigkeit.

Einführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform der besten visuellen Teams deutscher Universitäten Bilder

Wer sich für Kinderschuhe interessiert, warum nicht selbst machen.

Referenzen:

//m.sbmmt.com/link/f9d8bf6b7414e900118caa579ea1b7be

//m.sbmmt.com/link/75a6e59 9 3aefba4f6cb07254637a6133

Das obige ist der detaillierte Inhalt vonEinführung eines kostenlosen personalisierten Empfehlungssystems für wissenschaftliche Arbeiten – der „arXiv Customized Platform' der besten visuellen Teams deutscher Universitäten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!