Das Team von CMU Zhu Junyan entwickelte ein automatisches Matching-Ranking-System, um die Vor- und Nachteile verschiedener KI-Generierungsmodelle zu bewerten.-KI-php.cn

Das Team von CMU Zhu Junyan entwickelte ein automatisches Matching-Ranking-System, um die Vor- und Nachteile verschiedener KI-Generierungsmodelle zu bewerten.

王林

Freigeben： 2023-05-09 21:09:07

nach vorne

1256 Leute haben es durchsucht

Dieser Artikel wurde von Lei Feng.com reproduziert. Wenn Sie ihn erneut drucken möchten, besuchen Sie bitte die offizielle Website von Lei Feng.com, um eine Genehmigung zu beantragen.

Generative KI erfreut sich in letzter Zeit großer Beliebtheit und es gibt so viele neue vorab trainierte Bilderzeugungsmodelle, dass es schwindelerregend ist, sie zu sehen. Ob Porträts, Landschaften, Cartoons, Elemente eines bestimmten Künstlerstils und mehr – jedes Modell hat etwas, das es gut hervorbringen kann.

Wie finden Sie bei so vielen Modellen schnell das beste Modell, das Ihre kreativen Wünsche erfüllen kann?

Kürzlich haben Zhu Junyan, Assistenzprofessor an der Carnegie Mellon University, und andere zum ersten Mal den inhaltsbasierten Modellsuchalgorithmus vorgeschlagen, mit dem Sie mit einem Klick nach dem am besten passenden Tiefenbilderzeugungsmodell suchen können.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Papieradresse: https://arxiv.org/pdf/2210.03116.pdf

Auf Modelverse, der vom Team basierend auf dieser Reihe von Modellsuchen entwickelten Online-Model-Sharing- und Suchplattform Algorithmen können Sie Text, Bilder, Skizzen und ein bestimmtes Modell eingeben, um nach den am besten passenden oder ähnlich verwandten Modellen zu suchen.

Modelverse-Plattformadresse: https://modelverse.cs.cmu.edu/

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Beschriftung: Geben Sie Text (z. B. „Afrikanische Tiere“) und ein Bild (z. B. ein Landschaftsbild) ein ) , Skizze (z. B. eine Skizze einer stehenden Katze) oder ein bestimmtes Modell, geben Sie die am höchsten bewerteten verwandten Modelle aus (zweite Zeile, dritte Zeile)

Geben Sie beispielsweise den Text „Gesicht“ und die Ergebnisse ein sind wie folgt:

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Geben Sie ein Katzenbild ein:

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Geben Sie eine Pferdeskizze ein:

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

1 Inhaltsbasierte Modellsuche

und das Gleiche wie herkömmliche Multimedia-Inhalte Mit der Modellsuche können Benutzer das Modell finden, das ihren spezifischen Anforderungen am besten entspricht. Die inhaltsbasierte Modellsuchaufgabe weist jedoch ihre eigenen besonderen Schwierigkeiten auf:

Die Bestimmung, ob das Modell ein bestimmtes Bild erzeugen kann, ist ein schwieriges Rechenproblem, und viele tiefgreifende generative Modelle bieten keine wirksamen Methoden zur Schätzung der Dichte Die Bewertung der modalübergreifenden Ähnlichkeit wird nicht unterstützt. Die auf Stichproben basierende Methode von Monte Carlo macht den Modellsuchprozess sehr langsam.

Zu diesem Zweck schlug das Team von Zhu Junyan ein neues Modellsuchsystem vor.

Jedes generative Modell erzeugt eine Bildverteilung, daher betrachten die Autoren das Suchproblem als eine Optimierung, die die Wahrscheinlichkeit maximiert, eine Übereinstimmung mit der Abfrage angesichts des Modells zu generieren. Wie in der folgenden Abbildung dargestellt, besteht das System aus einer Vorcaching-Stufe (a, b) und einer Inferenzstufe (c). Bildunterschrift: Überblick über die Modellsuchmethoden - und Eigenstatistiken zweiter Ordnung für jedes Modell. Statistiken werden im System zwischengespeichert, um die Effizienz zu verbessern; (c) während der Inferenzphase werden Abfragen verschiedener Modalitäten unterstützt, einschließlich Bildern, Skizzen, Textbeschreibungen, einem anderen generativen Modell oder einer Kombination dieser Abfragetypen. Die Autoren führen hier eine Näherung ein, bei der die Abfrage als Merkmalsvektor codiert wird und das Modell mit dem besten Ähnlichkeitsmaß durch Auswertung der Ähnlichkeit zwischen den Abfragemerkmalen und den einzelnen Modellstatistiken ermittelt wird.

2 Modellsucheffekt

Der Autor bewertete den Algorithmus und führte eine experimentelle Ablationsanalyse an 133 Deep-Generation-Modellen durch (einschließlich GAN, Diffusionsmodell und autoregressives Modell). Im Vergleich zur Monte-Carlo-Basislinie kann mit dieser Methode eine effizientere Suche erreicht werden, mit einer Geschwindigkeitsverbesserung um das Fünffache innerhalb von 0,08 Millisekunden bei gleichzeitiger Beibehaltung hoher Genauigkeit .

Durch den Vergleich der Modellabrufergebnisse können wir uns auch eine ungefähre Vorstellung davon machen, welche Modelle Bilder mit höherer Qualität für verschiedene Abfrageeingaben generieren können. Die folgende Abbildung zeigt beispielsweise den Vergleich der Modellabrufergebnisse. Abbildung: Beispiel für Modellabrufergebnisse letztplatziertes Vision-gestütztes GAN-Modell. Die mittlere Zeile ist eine Skizzenabfrage. Geben Sie Skizzen von Pferden und Kirchen ein und erhalten Sie Modelle wie ADM und ProGAN. Die unterste Zeile ist eine Textabfrage. Geben Sie „Person mit Brille“ und „Sprechender Vogel“ ein, um das bestplatzierte GANSketch-Modell bzw. das selbstdestillierte GAN-Modell abzurufen.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统 Der Autor stellte außerdem fest, dass es Unterschiede in der Modellleistung in verschiedenen Netzwerk-Feature-Räumen gibt.

Wie in der Abbildung unten gezeigt, zeigen die Ergebnisse bei der Eingabe von Bildabfragen, dass die drei Netzwerke CLIP, DINO und Inception bei der Eingabe von Skizzenabfragen alle eine ähnliche Leistung aufweisen. CLIP schneidet deutlich besser ab, während DINO und Inception mit Sicherheit nicht geeignet sind Abfragen schneiden sie bei Modellen im künstlerischen Stil besser ab.

Bildunterschrift: Vergleich des bild- und skizzenbasierten Modellabrufs in verschiedenen Netzwerk-Feature-Räumen

Darüber hinaus kann der in dieser Arbeit vorgeschlagene Modellsuchalgorithmus auch eine Vielzahl von Anwendungen unterstützen, darunter Multimodalität Dynamische Benutzerabfrage, Abfrage ähnlicher Modelle, Rekonstruktion und Bearbeitung realer Bilder usw.

Eine multimodale Abfrage kann beispielsweise dabei helfen, die Modellsuche zu verfeinern. Wenn nur ein Bild von „Nicolas Cage“ vorhanden ist, kann nur das Gesichtsmodell abgerufen werden; Als Eingabe verwendet, können Sie das StyleGAN-NADA-Modell abrufen, das das Bild „Nicolas Cage-Hund“ generieren kann. (Wie unten gezeigt) AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Bildunterschrift: Multimodale Benutzerabfrage

Wenn es sich bei der Eingabe um ein Gesichtsmodell handelt, können mehr Modelle zur Gesichtsgenerierung abgerufen werden und die Kategorien bleiben ähnlich. (Wie unten gezeigt)

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Bildunterschrift: Ähnliche Modellabfrage

Anhand eines Abfragebilds eines echten Gesichts kann die Verwendung eines höherrangigen Modells eine genauere Bildrekonstruktion erhalten. Die folgende Abbildung ist ein Beispiel für die inverse Bildzuordnung von CelebA-HQ- und LSUN-Kirchenbildern unter Verwendung verschiedener Ranking-Modelle.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Bildunterschrift: Projizieren Sie das reale Bild auf das abgerufene StyleGAN2-Modell.

Bei der Aufgabe, echte Bilder zu bearbeiten, variiert auch die Leistung verschiedener Modelle. In der Abbildung unten wird das Modell mit dem höchsten Rang im bildbasierten Modellabrufalgorithmus verwendet, um das reale Bild invers abzubilden, und dann mit GANspace bearbeitet, um das stirnrunzelnde Gesicht im Ukiyoe-Bild in ein lächelndes Gesicht umzuwandeln.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Bildunterschrift: Bearbeiten realer Bilder

Diese Forschung hat die Machbarkeit der Modellsuche bewiesen, und es gibt noch viel Forschungsraum für die Modellsuche, die aus Text, Audio oder anderen Inhalten generiert wird.

Aber derzeit weist die in dieser Arbeit vorgeschlagene Methode noch gewisse Einschränkungen auf. Wenn beispielsweise eine bestimmte Skizze abgefragt wird, wird manchmal ein Modell einer abstrakten Form abgeglichen. Bei einer multimodalen Abfrage kann manchmal nur ein einzelnes Modell abgerufen werden, und das System hat möglicherweise Schwierigkeiten, Bilder wie einen Hund zu verarbeiten „große multimodale Abfragen wie „“. (Wie unten gezeigt)

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Hinweis: Fehlerfall

Außerdem wird die abgerufene Modellliste auf der Modellsuchplattform nicht automatisch nach ihrer Wirkung sortiert, z. B. beim Generieren von Bildern. Auswerten und ordnen Sie verschiedene Modelle hinsichtlich Auflösung, Wiedergabetreue, Übereinstimmung usw. ein. Dies erleichtert Benutzern die Suche und hilft Benutzern, die Vor- und Nachteile der aktuell generierten Modelle besser zu verstehen. Wir freuen uns auf weitere Arbeiten in diesem Bereich . .

Das obige ist der detaillierte Inhalt vonDas Team von CMU Zhu Junyan entwickelte ein automatisches Matching-Ranking-System, um die Vor- und Nachteile verschiedener KI-Generierungsmodelle zu bewerten.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!