Doubao Big Model Team은 VLM 캡션 평가의 신뢰성을 향상시키기 위해 새로운 세부 이미지 캡션 평가 벤치마크를 출시했습니다.-일체 포함-php.cn

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

현재 시각적 언어 모델(VLM)은 주로 QA 질문 및 답변 형식을 통해 성능 평가를 수행하지만, 기본 이해 능력에 대한 평가가 부족합니다. 세부 이미지 캡션과 같은 모델 성능에 대한 신뢰할 수 있는 척도입니다.

이 문제에 대해 중국과학원, 북경대학교, 바이트 두바오 빅모델 팀은 DetailCaps-4870 데이터 세트를 공개하고 오픈소스 중 가장 높은 전문가 평가 합의를 달성한 효과적인 평가 지표 CAPTURE를 제안했습니다. 평가지표를 제공하고 저렴한 비용으로 GPT-Eval에 필적하는 결과를 달성합니다.

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

Paper: https://arxiv.org/abs/2405.19092
Dataset: https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
코드 : https://github.com/foundation-multimodal-models/CAPTURE

Introduction

현재 LVLM(대형 비전 언어 모델) 평가에는 다음과 같은 문제가 있습니다.

기존 LVLM 평가 솔루션은 주로 VQA 형식을 채택하는데 이는 지침을 따르는 능력에 큰 영향을 받으며 QA 프롬프트의 디자인은 인간의 편견을 쉽게 도입할 수 있습니다.
이미지 캡션 작업은 모델 이해 능력을 효과적으로 평가할 수 있지만 기존 캡션 벤치마크는 대부분 짧은 캡션을 Ground Truth로 사용하므로 lvlm 시대에는 완전히 구식입니다.
동시에 기존 이미지 캡션 평가 지표는 인간, GPT 등 전문가의 평가 결과와 일치성이 좋지 않아 매칭을 위해 일반적으로 사용되는 지표인 루즈 추출 n-gram이 충분히 민감하지 않습니다. 주요 정보의 정확성을 보장합니다. GPT-Eval은 전문가 평가와 더 일관성이 있지만 평가 비용이 많이 듭니다.

이러한 문제에 대응하여 본 연구에서는 저렴한 비용으로 LVLM 이미지 이해 기능을 정확하게 평가할 수 있는 새로운 세부 이미지 캡션 벤치마크 및 평가 지표를 제안합니다.

본 연구에서는 제안된 평가 데이터 세트 및 지표를 바탕으로 LVLM의 세부 이미지 캡션 역량을 탐색하는 데이터 구축 방법을 탐색하여 세부 캡션 데이터의 품질을 효과적으로 향상시켰습니다. C 그림 1: 왼쪽은 Capture Metric 인스턴스 표시이고 오른쪽은 Detail Caption 구성 방법입니다. 본 연구에서 제안하는 Detail 이미지 캡션 벤치마크는 텍스트 길이가 더 길고, 비반복적인 2개의 숫자가 상당히 많습니다. -그램이며 더 풍부한 시각적 정보를 포함합니다:

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

표 1: DetailCaps 벤치마크 통계 정보

tion 평가 by exT^{racing and co}Upling co

정보) 표시기는 4단계를 통해 자막 품질 평가를 수행합니다. 아래 그림과 같이 먼저 Factual praser [1]을 사용하여 세부 캡션의 객체, 속성, 관계 요소를 추출한 후 실제 의미가 없는 객체를 필터링합니다. 이후 3단계 매칭(정확 매칭, 동의어 매칭, 임베딩 매칭)을 거쳐 obj, attr, rel 요소의 매칭 점수(F1 스코어)를 계산하고 최종 결과로 가중치를 부여한다. ㅋㅋ DetailCaps 벤치마크 및 CAPTURE 지표의 지침에 따라 이 연구에서는 데이터에 대한 LVLM의 잠재력을 탐색하는 분할 정복 방법을 제안합니다. 합성하여 세부 캡션 데이터의 품질을 효과적으로 향상시킵니다. . 이 솔루션은 먼저 LVLM을 사용하여 전체 이미지 캡션을 생성한 다음 분할 모델(SAM [2]) 및 클러스터링과 같은 필터링 방법을 사용하여 이미지의 주요 위치를 찾고 로컬 캡션 생성을 위해 잘라냅니다. 기사에서는 캡션의 환각을 줄이기 위해 단어 수준 필터링 방법을 사용합니다. 이 방법은 먼저 이미지의 시각적 요소를 설명하는 단어와 문구를 구문 분석한 다음 대상 탐지 모델(Owlv2 [3)을 통해 점수가 낮은 객체를 필터링합니다. ]) 요소. 마지막으로 필터링된 전체 이미지 캡션과 로컬 캡션이 LLM(LLaMA2[4])으로 전송되어 최종 이미지 설명에 융합됩니다.

ExperimentCAPTURE 표시기

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

(1) CAPTURE 대 기타 캡션 표시기

-1 00(참조 캡션의 수동 주석, 모델의 수동 평가 LLaVA-1.5 [5], CogVLM [6] 및 ShareCaptioner [7]의 세 가지 모델에서 생성된 캡션을 전문가 점수로 테스트하고 각 평가 지표와 전문가 평가 간의 일관성을 계산했습니다.

ㅋㅋㅋ 　　　　　　　　　　　　　　　　　　　　　　　　　 평가 지표 전문가 평가와의 일관성은 피어슨 상관관계(선형 상관관계), R^2(절대 크기), Kendall의 타우(순위 부분 순서 쌍 일관성) 및 (Per-) 표본(Kendall's) tau(각 표본은 별도로 계산된 평균) 지표가 측정됩니다.

그 결과, 캡쳐는 다양한 지표에서 최고의 전문가 평가 일관성을 달성한 것으로 나타났습니다. 이러한 지표 중 Sample tau의 계산 방법은 실제 세부 이미지 캡션 평가에 가장 가깝습니다. CAPTURE도 이 지표에서 GPT4-Eval에 가까운 유일한 방법으로 평가 정확도와 비용 간의 균형을 잘 유지합니다.

(2) Ablation 분석

연구원들은 또한 CAPTURE의 각 모듈에 대해 Ablation 분석을 수행하고 그 효과를 검증했습니다.

^{표 3: CAPTURE 각 모듈의 Ablation 분석}

실험 결과는 중지 단어가 샘플 타우를 효과적으로 향상시키는 것으로 나타났으며 이는 이 모듈의 효율성을 보여줍니다. 그러나 불용어 필터링은 서로 다른 샘플의 세부 캡션에 서로 다른 영향을 미치므로 pcc 및 kendall tau가 약간 감소합니다. 소프트 매칭은 또한 샘플 타우를 향상시키고 1-R2 점수에 상당한 이득 효과가 있어 CAPTURE 예측 점수를 전문가가 득점한 절대 점수와 일치시킵니다. 가중치를 적용하여 최종 점수를 계산할 때 obj:attr:rel의 기본 비율은 5:5:2로 최적이며, 각 요소의 비율을 늘리거나 줄이면 성능이 저하됩니다. (3) 오픈소스 LVLM 상세설명 성능

전체적으로 InternVL-1.5가 현재 성능 최고의 오픈소스 LVLM입니다. LLaVA와 MiniGemini의 결과에서 LLM 매개변수의 수를 늘리면 모델의 세부 캡션 기능이 향상되는 데 일관된 효과가 있음을 알 수 있습니다. 동시에, 더 높은 해상도와 고품질 세부 캡션으로 훈련된 모델이 더 나은 성능을 발휘할 것입니다.

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

세부자막 데이터 구조

세부자막 평가 데이터셋과 평가지표를 기반으로 연구진은 제안된 세부자막 데이터 합성기법의 유효성을 검증하였다.

(1) 다양한 LVLM에 대한 상세 캡션 합성 방법의 유효성

아래 표와 같이 본 연구에서 제안하는 상세 캡션 합성 방법은 LLaVA-1.5-7B, LLaVA에서 효과적이다. -1.5-13B, LLAVA-Next-7B 및 Mini-Gemini-7B-HD는 일관된 세부 캡션 품질 향상을 얻었습니다.

표 5: 서로 다른 LVLM은 이 연구의 세부 캡션 합성 방법을 사용합니다

(2) Self-loop를 통해 세부 캡션 성능 더욱 향상

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

연구원들도 데이터 라벨링 -> 모델 훈련 -> 학습 과정을 통해 Self-loop을 수행하여 LVLM 디테일을 더욱 향상시키려고 노력했습니다. 캡션 레이블을 다시 지정하면 네 가지 루프 모두에서 성능이 긍정적인 결과를 얻었습니다. 동시에, 오픈 소스 솔루션[8]을 본 기사에서 제안한 단어 수준 환각 필터링 솔루션과 비교하면 설계의 효율성이 입증됩니다. 표 6: 자가 루프 효과 및 절제 분석 세부 캡션 합성 방식

(3) LVLM의 자체 표시 세부 캡션은 전반적인 성능을 향상시킬 수 있습니다.

이 연구에서는 LLaVA-1.5를 사용하여 주어진 세부 사항에 따라 sharegpt4v-100k 데이터를 수행했습니다. 캡션 구성 계획은 LLaVA-1.5의 SFT 교육을 위해 표시된 데이터를 다시 표시하고 사용하여 여러 벤치마크에서 일관된 성능 향상을 달성했습니다.

^{表七：합성 세부 캡션 数据在 LLaVA-1.5-7B 模型训练中的 작용}

^参考文献

^{[1] Zhuang Li, Yuyang Chai, Terry Zhuo Yue , Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji 및 Quan Hung Tran. 사실: 충실하고 일관된 텍스트 장면 그래프 구문 분석을 위한 벤치마크입니다. arXiv:2305.17497, 2023}

^{[2] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. 무엇이든 분류하세요. ICCV 2023}

^{[3] Matthias Minderer, Alexey Gritsenko, Neil Houlsby. 개방형 어휘 객체 감지 확장. NIPS 2024}

^{[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale 등 Llama 2: 개방형 기반 및 미세 조정된 채팅 모델. arXiv:2307.09288, 2023}

^{[5] Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee. 시각적 지침 조정을 통해 기준선을 개선했습니다. NeurIPS 2023 교육 튜닝 및 교육 후속 워크숍, 2023}

^{[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding 및 Jie Tang. Cogvlm: 사전 학습된 언어 모델을 위한 시각적 전문가입니다. arXiv:2311.03079, 2023}

^{[7] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao 및 Dahua Lin. Sharegpt4v: 더 나은 캡션으로 대규모 다중 모드 모델을 개선합니다. arXiv:2311.12793, 2023}

^{[8] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu 및 Xiang Bai. Monkey: 이미지 해상도와 텍스트 라벨은 대규모 다중 모드 모델에 중요한 요소입니다. arXiv:2311.06607, 2023}

豆包大模型团队

字节跳动豆包大模型团队成立于 2023년开发业界最先进的 AI 大模型技术，成为世界一流的研究团队，为科技和社会发贡献。

豆包大模型团队는 AI 领域拥有长期愿景与决心，研究方向涵盖 NLP、CV、语음을 等，중國、新加坡、美國等地设有实验室와研究岗位。团队依托平台充足的数据, 计算等资源, 下游支持, 下游支持豆包、扣子、即梦等 50 + 业务，并通过화山引擎开放给企业客户。目前，豆包 APP 已成为中國最大的AIGC 应用。欢迎加入字节跳动豆包大模型团队。

https://mp .weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

위 내용은 Doubao Big Model Team은 VLM 캡션 평가의 신뢰성을 향상시키기 위해 새로운 세부 이미지 캡션 평가 벤치마크를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!