Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pi Renjie: Doktorand im dritten Jahr an der Hong Kong University of Science and Technology, studiert bei Professor Zhang Tong und Professor Zhou Xiaofang. Erhielt 2024 ein Apple-Stipendium. Die aktuellen Hauptforschungsrichtungen sind multimodale große Sprachmodelle und datenzentrierte KI.
Zhang Jianshu: Ein Student im dritten Studienjahr an der Universität Wuhan. Derzeit arbeitet er als Forschungspraktikant unter der Leitung von Professor Zhang Tong. Seine Forschungsschwerpunkte sind große Sprachmodelle, multimodale große Sprachmodelle und kontinuierliches Lernen. Derzeit auf der Suche nach Zulassungsmöglichkeiten für die Promotion im Herbst 2025.
Bei der Entwicklung heutiger multimodaler Großmodelle hängt die Leistung des Modells eng mit der Qualität der Trainingsdaten zusammen. Man kann sagen, dass „die Daten dem Modell den größten Teil seiner Fähigkeiten verleihen“.
Dabei spielen Bild-Text-Datensätze in vielen Bereichen wie Bildverständnis, Textgenerierung und Bildabruf eine entscheidende Rolle.
Vorhandene Bildbeschreibungsdatensätze werden jedoch hauptsächlich aus Netzwerk-Crawling und manueller Annotation abgeleitet, und es gibt Probleme wie ungleichmäßige Qualität, fehlende Details und hohes Beschreibungsrauschen. Obwohl Menschen detaillierte Beschreibungen für Bilder bereitstellen können, schränken die hohen Anmerkungskosten deren Umfang und Durchführbarkeit ein. Daher besteht ein dringender Bedarf an einer effizienten und skalierbaren Methode zur Generierung genauer und detaillierter Bildbeschreibungen.
Um die oben genannten Herausforderungen anzugehen, haben Forscher der Hong Kong University of Science and Technology, der Wuhan University, der Zhejiang University und der UIUC gemeinsam ein innovatives Automatisierungsframework vorgeschlagen – Image-Textualization (IT), das multimodale große Sprachmodelle integriert (MLLMs) und verschiedene visuelle Expertenmodelle arbeiten zusammen, um Bildinformationen zu textualisieren, und verwenden schließlich ein reines Textmodell einer großen Sprache mit leistungsstarken Argumentationsfunktionen, um diese textualisierten Informationen in hochwertige Bildbeschreibungen umzuwandeln.
Papier: Bildtextualisierung: Ein automatisches Framework zum Erstellen genauer und detaillierter Bildbeschreibungen
Papieradresse: https://arxiv.org/pdf/2406.07502v1
Projektadresse: https: //github.com/sterzhang/image-textualization/
Datensatz und Codefreigabe: Mithilfe unseres Bildtextualisierungs-Frameworks haben wir einen umfangreichen, hochwertigen Bildbeschreibungsdatensatz (IT-170K) generiert. Um zukünftige Forschung zu erleichtern, haben wir den gesamten Quellcode und die generierten Datensätze öffentlich zugänglich gemacht.
🎜Bildtextualisierungsmethode 🎜🎜🎜Das Bildtextualisierungs-Framework (IT) umfasst die folgenden drei Phasen: 🎜
1. Grobkörnige Bildtextualisierung (ganzheitliche Textualisierung): Verwenden Sie zunächst ein multimodales großes Sprachmodell, um Referenzbeschreibungen für Bilder zu generieren. Obwohl diesen Beschreibungen möglicherweise Details und Illusionen fehlen, stellen sie die visuellen Informationen und den sprachlichen Ausdruck dar Die Grundstruktur des Bildes wird bereitgestellt. Die visuelle Struktur spiegelt sich hier hauptsächlich in der Tatsache wider, dass Referenzbeschreibungen häufig einige große Kernobjekte enthalten, die einen „Anker“-Effekt für nachfolgende Details bieten können, wodurch die endgültige textualisierte Wiedergabe hinzugefügter Details verbessert wird. Darüber hinaus spiegelt sich die Struktur des Sprachausdrucks hauptsächlich im großen Klartext-Sprachmodell wider, das über starke Sprachfähigkeiten verfügt. Dadurch kann die hier generierte Referenzbeschreibung gut organisiert werden Beispielsweise wird zunächst erklärt, was das Bild grob beschreibt, dann auf die Details eingegangen und abschließend zusammengefasst. Dieser Beschreibungsstil ist eher auf menschliche Vorlieben ausgerichtet. Dies ermöglicht auch die Verarbeitung der endgültigen textualisierten Untertitelung auf einer Vorlage mit besseren Sprachfunktionen.
2. Visuelle Detailtextualisierung: In dieser Phase extrahieren wir gleichzeitig Details von der Bildseite und der Textseite.
Die erste ist die Textseite. Da die Referenzbeschreibung, die wir in der vorherigen Phase mithilfe des multimodalen großen Modells erstellt haben, möglicherweise Halluzinationen enthält, ist das erste, was wir hier tun, die „Halluzinationserkennung“. Wir verwenden zuerst LLM, um die in der Referenzbeschreibung enthaltene Entität zu erfassen, und verwenden dann einen Open-Set-Detektor, um die Entität im Bild abzugleichen. Wenn sie nicht erkannt wird, wird die Entität als Illusion beurteilt. Hier textualisieren wir auch die erkannten Halluzinationen und löschen sie in der endgültigen textualisierten Wiederholung.
Auf der visuellen Seite verwenden wir visuelle Expertenmodelle für verschiedene Aufgaben, die an hochauflösenden Bildern trainiert wurden, um detaillierte Informationen aus dem Bild zu extrahieren. Wenn Sie die detaillierten Informationen eines Objekts in einem Bild durch Text ausdrücken möchten, reicht es nicht aus, nur die Beschriftung des Objekts zu verwenden. Wir verwenden zunächst den Begrenzungsrahmen dieser Objekte, um die Links-Rechts-Beziehung dieser Objekte im Formular zu extrahieren von Text. Die Objekte im Bild verfügen aber nicht nur über Links- und Rechtsinformationen, sondern auch über Vorder- und Rückseiteninformationen. In diesem Zusammenhang verwenden wir zunächst das Segmentierungsmodell, um die Masken dieser Objekte zu extrahieren, konvertieren dann die Originalbilder in Tiefenkarten und spiegeln die Tiefeninformationen im Text wider, indem wir die Tiefenbewertungen berechnen, die den Masken bestimmter Objekte in der Tiefe entsprechen Karte. An diesem Punkt können wir Text verwenden, um detaillierte Informationen wie die Größe, die linke und rechte Position und den Kontext jedes Objekts im Bild wiederherzustellen.
3. Textualisierte Recaptioning: Durch die Kombination der Textualisierungsergebnisse der Bildinformationen in den ersten beiden Phasen und unserer sorgfältig gestalteten umgeschriebenen Eingabeaufforderung kann das große Sprachmodell des Klartextes sehr gut sein. Es stellt Bildinformationen durch reines wieder her Text und generiert detaillierte und genaue Bildbeschreibungen durch leistungsstarke Verständnis- und Argumentationsfähigkeiten.
Umfassende Bewertung und experimentelle Verifizierung
Um die Wirksamkeit unseres Frameworks zu überprüfen, haben wir drei Bewertungsbenchmarks erstellt, nämlich DID-Bench (Detailed Image Description Benchmark), D2I-Bench (Description-to-Image Benchmark) und LIN – Bench (Sprachbenchmark). Wir führen umfangreiche Experimente durch und zeigen, dass die vom IT-Framework generierten Bildbeschreibungen bestehende Methoden hinsichtlich Detailreichtum und Genauigkeit deutlich übertreffen. Insbesondere MLLMs, die auf Datensätzen trainiert wurden, die von unserem IT-Framework wie LLaVA-7B generiert wurden, weisen stärkere Bildbeschreibungsfähigkeiten und weniger Halluzinationsphänomene auf.
DID-Bench (Detailed Image Description Benchmark): Wird verwendet, um die Ähnlichkeit zwischen Bildbeschreibungen und manuell beschrifteten detaillierten Bildbeschreibungen zu bewerten. Es ist ersichtlich, dass unsere modifizierten IT-{LLaVA}- und IT-{GPT4-V}-Bildbeschreibungen detaillierter und genauer sind als vor der Modifikation und besser mit den von Menschen markierten Beschreibungen übereinstimmen.
D2I-Bench (Benchmark von Beschreibung zu Bild): Verwenden Sie das Vincentian-Graphenmodell, um die generierte Beschreibung in ein Bild umzuwandeln und die Ähnlichkeit mit dem Originalbild zu vergleichen. Hier haben wir CLIP-Score und DINO-Score zur Bewertung ausgewählt . können höhere Punktzahlen erzielen.
Darüber hinaus haben wir auch auf POPE und LIN-Bench überprüft, dass LLaVA-7B, das mit den von unserem Framework generierten Daten trainiert wird, detailliertere und komplexere Beschreibungen generieren kann (LIN-Bench auf der rechten Seite). der Tabelle) und kann auch Halluzinationen reduzieren (POPE-Benchmark auf der linken Seite der Tabelle).
Abschließend haben wir die generierten Daten statistisch verglichen und können sehen, dass die Anzahl der einzelnen Wortarten in unserer modifizierten Beschreibung erheblich verbessert wurde.
Zukunftsausblick
Unsere Arbeit befasst sich nicht nur mit den Einschränkungen bestehender Bildbeschreibungsdatensätze, sondern liefert auch Inspiration für die Entwicklung effizienterer und skalierbarer Methoden. Wir freuen uns darauf, dass das IT-Framework sein Potenzial in weiteren Anwendungsbereichen unter Beweis stellt und die Weiterentwicklung der Bildverständnis- und Generierungstechnologie vorantreibt.
Das obige ist der detaillierte Inhalt vonWandeln Sie Bilder automatisch in Text um, und Bildbeschreibungen sind von höherer Qualität und genauer.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!