Das Doubao Big Model Team veröffentlicht einen neuen Bewertungsbenchmark für Detailbildunterschriften, um die Zuverlässigkeit der VLM-Untertitelbewertung zu verbessern-KI-php.cn

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Modell, z. B. Details Bildunterschrift Ein zuverlässiges Maß für die Leistung.

Als Reaktion auf dieses Problem veröffentlichten die Chinesische Akademie der Wissenschaften, die Peking-Universität und das Byte Doubao Big Model Team den Datensatz DetailCaps-4870 und schlugen einen effektiven Bewertungsindex CAPTURE vor, der den höchsten Expertenbewertungskonsens unter Open Source erreichte Bewertungsindizes und erzielt mit GPT-Eval vergleichbare Ergebnisse bei geringen Kosten.

Papier: https://arxiv.org/abs/2405.19092

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

Datensatz: https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870

Code : https://github.com/foundation-multimodal-models/CAPTURE
Einführung

Die aktuelle LVLM-Bewertung (Large Vision-Language Model) weist die folgenden Probleme auf:

Die bestehende LVLM-Bewertungslösung verwendet hauptsächlich das VQA-Formular, das stark von der Fähigkeit abhängt, Anweisungen zu befolgen, und die Gestaltung von QA-Eingabeaufforderungen kann leicht zu menschlicher Voreingenommenheit führen.

Bildunterschriftsaufgaben können die Fähigkeit des Modells, das Modell zu verstehen, effektiv bewerten, aber bestehende Untertitel-Benchmarks verwenden meist kurze Untertitel als Grundwahrheit, was in der LVLM-Ära völlig veraltet ist.

Gleichzeitig weisen die vorhandenen Bewertungsindikatoren für Bildunterschriften eine schlechte Übereinstimmung mit den Bewertungsergebnissen von Experten wie Menschen und GPT auf. Häufig verwendete Indikatoren wie Bleu- und Rouge-Extrakt-N-Gramm sind nicht empfindlich genug auf die Richtigkeit wichtiger Informationen. Obwohl GPT-Eval eher mit der Expertenbewertung übereinstimmt, verursacht es hohe Bewertungskosten.
Als Reaktion auf diese Probleme schlägt diese Studie einen neuen Benchmark und eine Bewertungsmetrik für Detailbildunterschriften vor, um eine genaue Bewertung der LVLM-Bildverständnisfähigkeiten zu geringeren Kosten zu erreichen.

Unter der Anleitung des vorgeschlagenen Bewertungsdatensatzes und der vorgeschlagenen Indikatoren untersuchte diese Forschung auch die Datenkonstruktionsmethode, um die eigenen Fähigkeiten von LVLM für Detailbildunterschriften zu erkunden und so die Qualität der Detailuntertiteldaten effektiv zu verbessern. C Abbildung 1: Die linke Seite ist die Capture Metric-Instanzanzeige und die rechte Seite ist die Detail Caption Construction-Methode. Der in dieser Studie vorgeschlagene Detail-Bilduntertitel-Benchmark weist eine längere Textlänge und eine deutlich größere Anzahl nicht wiederholender 2 auf -Gramm und enthält umfangreichere visuelle Informationen:

Tabelle 1: Der DetailCaps-Benchmark-Indikator für statistische Informationen (Bewertung nach Ex-T-Racing- und Koppel-Kopplungsinformationen) führt die Bewertung der Untertitelqualität in vier Schritten durch. Wie in der folgenden Abbildung gezeigt, extrahieren Sie zunächst mit Factual Praser [1] die Objekt-, Attribut- und Beziehungselemente in der Detailbeschriftung und filtern Sie dann Objekte heraus, die keine praktische Bedeutung haben. Anschließend werden die Matching-Scores (F1-Scores) der obj-, attr- und rel-Elemente über drei Matching-Stufen (exakter Matching, Synonym-Matching und Einbettungs-Matching) berechnet und als Endergebnis gewichtet.

Ent die Anleitung von Detailcaps-Benchmark und Capture-Metrik vorschlägt eine Methode, die auf der Divide-and-Conquer-Methode basiert . Diese Lösung verwendet zunächst LVLM, um vollständige Bildunterschriften zu generieren, und verwendet dann Filtermethoden wie das Segmentierungsmodell (SAM [2]) und Clustering, um Schlüsselpositionen im Bild zu finden und sie für die lokale Generierung von Bildunterschriften auszuschneiden. Der Artikel verwendet eine Filtermethode auf Wortebene, um Halluzinationen in Bildunterschriften zu reduzieren. Diese Methode analysiert zunächst die Wörter und Phrasen, die die visuellen Elemente im Bild beschreiben, und filtert dann Objekte mit niedriger Bewertung durch ein Zielerkennungsmodell (Owlv2 [3 ]). Elemente. Schließlich werden die gefilterte vollständige Bildunterschrift und die lokale Bildunterschrift an LLM (LLaMA2 [4]) gesendet, um in der endgültigen Bildbeschreibung zusammengeführt zu werden.

ExperimentCAPTURE-Indikator

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

(1) CAPTURE im Vergleich zu anderen Untertitelindikatoren

Diese Studie ist in. DetailCap s-1 00 (manuelle Anmerkung der Referenzbeschriftung, Manuelle Bewertung des Modells. Von drei Modellen generierte Bildunterschriften: LLaVA-1.5 [5], CogVLM [6] und ShareCaptioner [7] wurden anhand der Expertenbewertung getestet und berechnen die Konsistenz zwischen jedem Bewertungsindikator und der Expertenbewertung:

　　　　　　　　　　　　　　　　　　　　　　　　Bewertungsindikatoren Die Konsistenz mit der Expertenbewertung wird durch Pearson-Korrelation (lineare Korrelation), R^2 (absolute Größe), Kendalls Tau (Rangfolge-Teilordnungspaarkonsistenz) und (Pro-)Probe (Kendalls) Tau (jede Probe ist) gemessen (separat berechneter Durchschnitt) Indikatoren werden gemessen.

Die Ergebnisse zeigen, dass CAPTURE bei verschiedenen Indikatoren die beste Expertenbewertungskonsistenz erreicht hat. Unter diesen Indikatoren kommt die Berechnungsmethode von Sample Tau der tatsächlichen Auswertung der Detailbildunterschrift am nächsten. CAPTURE ist auch die einzige Methode, die GPT4-Eval bei diesem Indikator nahe kommt und ein gutes Gleichgewicht zwischen Genauigkeit und Kosten der Auswertung erreicht.

(2) Ablationsanalyse

Die Forscher führten außerdem eine Ablationsanalyse für jedes Modul in CAPTURE durch und überprüften dessen Wirksamkeit:

^{Tabelle 3: Ablationsanalyse jedes Moduls von CAPTURE}

Die experimentellen Ergebnisse zeigen, dass Stoppwörter das Proben-Tau effektiv verbessern, was die Wirksamkeit dieses Moduls veranschaulicht. Die Filterung von Stoppwörtern hat jedoch unterschiedliche Auswirkungen auf die Detailbeschriftung verschiedener Proben, was zu einer leichten Verringerung von PCC und Kendall Tau führt. Soft Matching verbessert auch das Stichproben-Tau und hat einen erheblichen Verstärkungseffekt auf den 1-R2-Score, indem es den CAPTURE-Vorhersage-Score an den von Experten erzielten absoluten Score anpasst. Bei der gewichteten Berechnung der Endpunktzahl beträgt das Standardverhältnis von obj:attr:rel 5:5:2, was optimal ist. Eine Erhöhung oder Verringerung des Anteils jedes Elements führt zu einer Leistungsverschlechterung. (3) Detaillierte Beschreibung der Leistung von Open-Source-LVLM

Insgesamt ist InternVL-1.5 die aktuelle Leistung Das beste Open-Source-LVLM. Aus den Ergebnissen von LLaVA und MiniGemini geht hervor, dass eine Erhöhung der Anzahl der LLM-Parameter eine konsistente Auswirkung auf die Verbesserung der Detailbeschriftungsfähigkeiten des Modells hat. Gleichzeitig erzielen Modelle mit höherer Auflösung, die mit hochwertigen Detailbeschriftungen trainiert wurden, eine bessere Leistung.

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

Detailuntertitel-Datenstruktur

Basierend auf dem Detailuntertitel-Bewertungsdatensatz und den Bewertungsindikatoren überprüften die Forscher die Wirksamkeit des vorgeschlagenen Detailuntertitel-Datensyntheseschemas.

(1) Die Wirksamkeit der detaillierten Untertitelsynthesemethode bei verschiedenen LVLMs

Wie in der folgenden Tabelle gezeigt, ist die in dieser Studie vorgeschlagene detaillierte Untertitelsynthesemethode bei LLaVA-1.5-7B und LLaVA wirksam -1.5-13B, LLaVA-NEXT-7B und Mini-Gemini-7B-HD erzielten eine konsistente Verbesserung der Detailuntertitelqualität: Kontinuierliche Qualitätsverbesserung der Detailuntertitel bei LLaVA-NEXT-7B und Mini- Gemini-7B-HD:

(2) Weitere Verbesserung der Detailuntertitelleistung durch Selbstschleife

Die Forscher versuchten auch, die LVLM-Details weiter zu verbessern, indem sie Selbstschleife durchführten Der Trainingsprozess der Datenkennzeichnung -> Modelltraining -> Neukennzeichnung der Überschrift Leistung hat in allen vier Schleifen positive Ergebnisse erzielt. Gleichzeitig beweist der Vergleich der Open-Source-Lösung [8] mit der in diesem Artikel vorgeschlagenen Halluzinationsfilterlösung auf Wortebene die Wirksamkeit ihres Designs: Tabelle 6: Self-Looping-Effekt und Ablationsanalyse von das Detailbeschriftungssyntheseschema

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

(3) Die selbstmarkierte Detailbeschriftung von LVLM kann die Gesamtleistung verbessern

In dieser Studie wurde LLaVA-1.5 verwendet, um Sharegpt4v-100k-Daten gemäß den angegebenen Details durchzuführen Bildunterschrift: Konstruktionsplan neu markiert und die markierten Daten für das SFT-Training von LLaVA-1.5 verwendet, um konsistente Leistungsverbesserungen bei mehreren Benchmarks zu erzielen:

参考文献

[1] Zhuang Li, Yuyang Chai, Terry Zhuo Yue , Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji und Quan Hung Tran. Faktisch: Ein Maßstab für die getreue und konsistente Analyse von Textszenendiagrammen. arXiv:2305.17497, 2023

[2] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segmentieren Sie alles. ICCV 2023

[3] Matthias Minderer, Alexey Gritsenko und Neil Houlsby. Skalierung der Objekterkennung im offenen Vokabular. NIPS 2024

[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Lama 2: Offene Grundlage und fein abgestimmte Chat-Modelle. arXiv:2307.09288, 2023

[5] Haotian Liu, Chunyuan Li, Yuheng Li und Yong Jae Lee. Verbesserte Grundlinien mit visueller Anweisungsoptimierung. NeurIPS 2023 Workshop zur Instruktionsoptimierung und Instruktionsfolge, 2023

[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding und Jie Tang. Cogvlm: Visueller Experte für vorab trainierte Sprachmodelle. arXiv:2311.03079, 2023

[7] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao und Dahua Lin. Sharegpt4v: Verbesserung großer multimodaler Modelle mit besseren Beschriftungen. arXiv:2311.12793, 2023

[8] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu und Xiang Bai. Monkey: Bildauflösung und Textbeschriftung sind wichtige Dinge für große multimodale Modelle. arXiv:2311.06607, 2023年，致力于开发业界最先进的 AI 大模型技术, 成为世界一流的研究团队, 为科技和社会发展作出贡献.

豆包大模型团队在 AI 领域拥有长期愿景与决心,研究方向涵盖 NLP、CV、语音等，在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源, 在相关领域持续投入, 已推出自研通用大模型, 提供多模态能力, 下游支持豆包, 扣子, 即梦等 50 + 业务, 并通过火山引擎开放给企业客户.目前,豆包 APP 已成为中国市场用户量最大的 AIGC 应用.欢迎加入字节跳动豆包大模型团队。

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

Das obige ist der detaillierte Inhalt vonDas Doubao Big Model Team veröffentlicht einen neuen Bewertungsbenchmark für Detailbildunterschriften, um die Zuverlässigkeit der VLM-Untertitelbewertung zu verbessern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!