In den letzten zwei Jahren ist das „Diffusionsmodell textgenerierter Bilder“ sehr beliebt geworden. DALL·E 2 und Imagen sind beide darauf basierende Anwendungen.
Dieser Artikel wurde mit Genehmigung von AI New Media Qubit (öffentliche Konto-ID: QbitAI) nachgedruckt. Bitte wenden Sie sich für einen Nachdruck an die Quelle.
Dies ist ein scheinbar gewöhnliches japanisches Bento.
Aber können Sie es glauben? Tatsächlich ist jedes Lebensmittelgitter P-ed, und das Originalbild ist immer noch von Tante Jiang:
△ Schneiden Sie einfach das Bild aus und fügen Sie es ein, der Effekt ist Fake auf den ersten Blick
Der Betreiber dahinter Es ist kein PS-Boss, sondern eine KI mit einem ganz einfachen Namen: Collage Diffusion.
Suchen Sie einfach ein paar kleine Bilder und geben Sie sie hinein, und die KI wird in der Lage sein, den Inhalt des Bildes von selbst zu verstehen und dann die verschiedenen Elemente ganz natürlich zu einem großen Bild zusammenzufügen – das gibt es überhaupt keine Fälschung.
Der Effekt überraschte viele Internetnutzer.
Einige PS-Enthusiasten sagten sogar direkt:
Das ist einfach ein Geschenk des Himmels ... Ich hoffe, es bald in Automatic1111 (einer Netzwerk-Benutzeroberfläche, die häufig von Stable Diffusion-Benutzern verwendet wird und auch eine in PS integrierte Plug-in-Version ist) zu sehen. .
Tatsächlich gibt es mehrere von dieser KI generierte Versionen des „japanischen Bento“ – alle sehen natürlich aus.
Warum gibt es mehrere Versionen? Der Grund, warum ich frage, ist, dass Benutzer es auch anpassen können. Sie können verschiedene Details verfeinern, ohne dass die Gesamtsituation zu unverschämt wird.
Neben „Japanischem Bento“ gibt es auch viele herausragende Werke.
Zum Beispiel ist dies das Material, das AI gegeben wurde. Die Spuren von P-Bildern sind offensichtlich:
Dies ist das von AI zusammengestellte Bild. Ich habe jedenfalls keine Spuren von P-Bildern gesehen:
Apropos diese beiden: Im Jahr 2016 wurde das „Diffusionsmodell textgenerierter Bilder“ sehr beliebt. DALL·E 2 und Imagen waren beides darauf basierende Anwendungen. Der Vorteil dieses Diffusionsmodells besteht darin, dass die erzeugten Bilder vielfältig und von hoher Qualität sind.
Allerdings kann Text höchstens eine unscharfe standardisierende Rolle für das Zielbild spielen, sodass Benutzer in der Regel viel Zeit mit der Anpassung von Eingabeaufforderungen (Eingabeaufforderungen) verbringen und zusätzliche Steuerungskomponenten verwenden müssen, um gute Ergebnisse zu erzielen. Wirkung.
Nehmen Sie das oben gezeigte japanische Bento als Beispiel:
Wenn der Benutzer nur „eine Bento-Box mit Reis, Edamame, Ingwer und Sushi“ eingibt, dann wird weder beschrieben, welches Essen in welches Gitter gelegt wird, noch gibt es keine Beschreibung davon, wie jedes Lebensmittel aussieht. Aber wenn Sie es klarstellen müssen, muss der Benutzer möglicherweise einen kurzen Aufsatz schreiben ...
In Anbetracht dessen beschloss das Stanford-Team, aus einem anderen Blickwinkel zu beginnen.
Sie beschlossen, sich auf traditionelle Ideen zu beziehen und das endgültige Bild durch Puzzle zu erzeugen, und entwickelten so ein neues Verbreitungsmodell.
Das Interessante ist, dass dieses Modell, um es ganz klar auszudrücken, mit klassischen Techniken „ausbuchstabiert“ werden kann.
Zunächst erfolgt die Schichtung: Zerlegen Sie das Quellbild mithilfe der ebenenbasierten Bildbearbeitungsoberfläche in RGBA-Ebenen (R, G und B stehen für Rot, Grün bzw. Blau und A für Transparenz) und kombinieren Sie diese dann Ordnen Sie die Ebenen auf der Leinwand an und koppeln Sie jede Ebene mit einer Textaufforderung.
Durch Ebenen können verschiedene Elemente in Ihrem Bild verändert werden.
Bisher war Layering eine ausgereifte Technologie im Bereich der Computergrafik, aber zuvor wurden geschichtete Informationen im Allgemeinen als einzelnes Bildausgabeergebnis verwendet.
In diesem neuen „Puzzle-Diffusionsmodell“ werden geschichtete Informationen zur Eingabe für nachfolgende Operationen.
Zusätzlich zur Schichtung wird auch mit der vorhandenen diffusionsbasierten Bildkoordinationstechnologie gepaart, um die visuelle Qualität von Bildern zu verbessern.
Kurz gesagt, dieser Algorithmus begrenzt nicht nur Änderungen bestimmter Attribute von Objekten (z. B. visuelle Merkmale), sondern ermöglicht auch die Änderung von Attributen (Richtung, Beleuchtung, Perspektive, Okklusion).
——Auf diese Weise wird das Verhältnis zwischen dem Grad der Wiederherstellung und dem Grad der Natürlichkeit ausgeglichen und Bilder erzeugt, die „spirituell ähnlich“ sind und keinen Sinn für Verletzung haben.
Der Bedienungsprozess ist auch sehr einfach. Im interaktiven Bearbeitungsmodus können Benutzer in wenigen Minuten eine Collage erstellen.
Sie können nicht nur die räumliche Anordnung in der Szene anpassen (d. h. die von anderswo aufgenommenen Bilder in die richtige Position bringen); sie können auch die verschiedenen Komponenten anpassen, die das Bild erzeugen. Wenn Sie dasselbe Quellbild verwenden, können Sie unterschiedliche Effekte erzielen.
△Die Spalte ganz rechts ist das Ausgabeergebnis dieser KI
Und im nicht-interaktiven Modus (das heißt, der Benutzer rätselt nicht und wirft der KI direkt eine Reihe kleiner Bilder zu) die KI Sie können auch ein kleines Bild basierend auf erstellen und automatisch ein großes Bild mit natürlichen Effekten erstellen.
Lassen Sie uns zum Schluss über das Forschungsteam dahinter sprechen. Es handelt sich um eine Gruppe von Lehrern und Studenten der Informatikabteilung der Stanford University.
Der Erstautor der Dissertation, Vishnu Sarukkai, ist derzeit Doktorand am Fachbereich Informatik in Stanford, wo er einen Master-Abschluss und einen Ph.D. macht.
Seine Forschungsschwerpunkte sind: Computergrafik, Computer Vision und maschinelles Lernen.
Darüber hinaus ist die Co-Autorin des Artikels, Linden Li, auch Doktorandin am Fachbereich Informatik der Stanford.
Während seines Studiums absolvierte er ein viermonatiges Praktikum bei NVIDIA. Er arbeitete mit dem Deep-Learning-Forschungsteam von NVIDIA zusammen und beteiligte sich an der Schulung eines visuellen Konvertermodells, das über 100 Millionen Parameter hinzufügte.
Papieradresse: https://arxiv.org/abs/2303.00262
Das obige ist der detaillierte Inhalt vonEs spielt keine Rolle, ob Sie nicht wissen, wie man PS verwendet, die KI-Puzzle-Technologie kann die Fälschung bereits echt aussehen lassen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!