AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
현재 시각적 언어 모델(VLM)은 주로 QA 질문 및 답변 형식을 통해 성능 평가를 수행하지만, 기본 이해 능력에 대한 평가가 부족합니다. 세부 이미지 캡션과 같은 모델 성능에 대한 신뢰할 수 있는 척도입니다. 이 문제에 대해 중국과학원, 북경대학교, 바이트 두바오 빅모델 팀은 DetailCaps-4870 데이터 세트를 공개하고 오픈소스 중 가장 높은 전문가 평가 합의를 달성한 효과적인 평가 지표 CAPTURE를 제안했습니다. 평가지표를 제공하고 저렴한 비용으로 GPT-Eval에 필적하는 결과를 달성합니다.
- Paper: https://arxiv.org/abs/2405.19092
- Dataset: https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
- 코드 : https://github.com/foundation-multimodal-models/CAPTURE
현재 LVLM(대형 비전 언어 모델) 평가에는 다음과 같은 문제가 있습니다.
- 기존 LVLM 평가 솔루션은 주로 VQA 형식을 채택하는데 이는 지침을 따르는 능력에 큰 영향을 받으며 QA 프롬프트의 디자인은 인간의 편견을 쉽게 도입할 수 있습니다.
- 이미지 캡션 작업은 모델 이해 능력을 효과적으로 평가할 수 있지만 기존 캡션 벤치마크는 대부분 짧은 캡션을 Ground Truth로 사용하므로 lvlm 시대에는 완전히 구식입니다.
- 동시에 기존 이미지 캡션 평가 지표는 인간, GPT 등 전문가의 평가 결과와 일치성이 좋지 않아 매칭을 위해 일반적으로 사용되는 지표인 루즈 추출 n-gram이 충분히 민감하지 않습니다. 주요 정보의 정확성을 보장합니다. GPT-Eval은 전문가 평가와 더 일관성이 있지만 평가 비용이 많이 듭니다.
이러한 문제에 대응하여 본 연구에서는 저렴한 비용으로 LVLM 이미지 이해 기능을 정확하게 평가할 수 있는 새로운 세부 이미지 캡션 벤치마크 및 평가 지표를 제안합니다. 본 연구에서는 제안된 평가 데이터 세트 및 지표를 바탕으로 LVLM의 세부 이미지 캡션 역량을 탐색하는 데이터 구축 방법을 탐색하여 세부 캡션 데이터의 품질을 효과적으로 향상시켰습니다. C 그림 1: 왼쪽은 Capture Metric 인스턴스 표시이고 오른쪽은 Detail Caption 구성 방법입니다. 본 연구에서 제안하는 Detail 이미지 캡션 벤치마크는 텍스트 길이가 더 길고, 비반복적인 2개의 숫자가 상당히 많습니다. -그램이며 더 풍부한 시각적 정보를 포함합니다: 표 1: DetailCaps 벤치마크 통계 정보
tion 평가 by exTracing and coUpling co RE
정보) 표시기는 4단계를 통해 자막 품질 평가를 수행합니다. 아래 그림과 같이 먼저 Factual praser [1]을 사용하여 세부 캡션의 객체, 속성, 관계 요소를 추출한 후 실제 의미가 없는 객체를 필터링합니다. 이후 3단계 매칭(정확 매칭, 동의어 매칭, 임베딩 매칭)을 거쳐 obj, attr, rel 요소의 매칭 점수(F1 스코어)를 계산하고 최종 결과로 가중치를 부여한다. ㅋㅋ DetailCaps 벤치마크 및 CAPTURE 지표의 지침에 따라 이 연구에서는 데이터에 대한 LVLM의 잠재력을 탐색하는 분할 정복 방법을 제안합니다. 합성하여 세부 캡션 데이터의 품질을 효과적으로 향상시킵니다. . 이 솔루션은 먼저 LVLM을 사용하여 전체 이미지 캡션을 생성한 다음 분할 모델(SAM [2]) 및 클러스터링과 같은 필터링 방법을 사용하여 이미지의 주요 위치를 찾고 로컬 캡션 생성을 위해 잘라냅니다. 기사에서는 캡션의 환각을 줄이기 위해 단어 수준 필터링 방법을 사용합니다. 이 방법은 먼저 이미지의 시각적 요소를 설명하는 단어와 문구를 구문 분석한 다음 대상 탐지 모델(Owlv2 [3)을 통해 점수가 낮은 객체를 필터링합니다. ]) 요소. 마지막으로 필터링된 전체 이미지 캡션과 로컬 캡션이 LLM(LLaMA2[4])으로 전송되어 최종 이미지 설명에 융합됩니다. (1) CAPTURE 대 기타 캡션 표시기
-1 00(참조 캡션의 수동 주석, 모델의 수동 평가 LLaVA-1.5 [5], CogVLM [6] 및 ShareCaptioner [7]의 세 가지 모델에서 생성된 캡션을 전문가 점수로 테스트하고 각 평가 지표와 전문가 평가 간의 일관성을 계산했습니다. ㅋㅋㅋ 평가 지표 전문가 평가와의 일관성은 피어슨 상관관계(선형 상관관계), R^2(절대 크기), Kendall의 타우(순위 부분 순서 쌍 일관성) 및 (Per-) 표본(Kendall's) tau(각 표본은 별도로 계산된 평균) 지표가 측정됩니다.
그 결과, 캡쳐는 다양한 지표에서 최고의 전문가 평가 일관성을 달성한 것으로 나타났습니다. 이러한 지표 중 Sample tau의 계산 방법은 실제 세부 이미지 캡션 평가에 가장 가깝습니다. CAPTURE도 이 지표에서 GPT4-Eval에 가까운 유일한 방법으로 평가 정확도와 비용 간의 균형을 잘 유지합니다. 연구원들은 또한 CAPTURE의 각 모듈에 대해 Ablation 분석을 수행하고 그 효과를 검증했습니다.
표 3: CAPTURE 각 모듈의 Ablation 분석 실험 결과는 중지 단어가 샘플 타우를 효과적으로 향상시키는 것으로 나타났으며 이는 이 모듈의 효율성을 보여줍니다. 그러나 불용어 필터링은 서로 다른 샘플의 세부 캡션에 서로 다른 영향을 미치므로 pcc 및 kendall tau가 약간 감소합니다. 소프트 매칭은 또한 샘플 타우를 향상시키고 1-R2 점수에 상당한 이득 효과가 있어 CAPTURE 예측 점수를 전문가가 득점한 절대 점수와 일치시킵니다. 가중치를 적용하여 최종 점수를 계산할 때 obj:attr:rel의 기본 비율은 5:5:2로 최적이며, 각 요소의 비율을 늘리거나 줄이면 성능이 저하됩니다. (3) 오픈소스 LVLM 상세설명 성능 전체적으로 InternVL-1.5가 현재 성능 최고의 오픈소스 LVLM입니다. LLaVA와 MiniGemini의 결과에서 LLM 매개변수의 수를 늘리면 모델의 세부 캡션 기능이 향상되는 데 일관된 효과가 있음을 알 수 있습니다. 동시에, 더 높은 해상도와 고품질 세부 캡션으로 훈련된 모델이 더 나은 성능을 발휘할 것입니다.
세부자막 평가 데이터셋과 평가지표를 기반으로 연구진은 제안된 세부자막 데이터 합성기법의 유효성을 검증하였다.
(1) 다양한 LVLM에 대한 상세 캡션 합성 방법의 유효성아래 표와 같이 본 연구에서 제안하는 상세 캡션 합성 방법은 LLaVA-1.5-7B, LLaVA에서 효과적이다. -1.5-13B, LLAVA-Next-7B 및 Mini-Gemini-7B-HD는 일관된 세부 캡션 품질 향상을 얻었습니다. 표 5: 서로 다른 LVLM은 이 연구의 세부 캡션 합성 방법을 사용합니다 (2) Self-loop를 통해 세부 캡션 성능 더욱 향상
연구원들도 데이터 라벨링 -> 모델 훈련 -> 학습 과정을 통해 Self-loop을 수행하여 LVLM 디테일을 더욱 향상시키려고 노력했습니다. 캡션 레이블을 다시 지정하면 네 가지 루프 모두에서 성능이 긍정적인 결과를 얻었습니다. 동시에, 오픈 소스 솔루션[8]을 본 기사에서 제안한 단어 수준 환각 필터링 솔루션과 비교하면 설계의 효율성이 입증됩니다. 표 6: 자가 루프 효과 및 절제 분석 세부 캡션 합성 방식
(3) LVLM의 자체 표시 세부 캡션은 전반적인 성능을 향상시킬 수 있습니다.
이 연구에서는 LLaVA-1.5를 사용하여 주어진 세부 사항에 따라 sharegpt4v-100k 데이터를 수행했습니다. 캡션 구성 계획은 LLaVA-1.5의 SFT 교육을 위해 표시된 데이터를 다시 표시하고 사용하여 여러 벤치마크에서 일관된 성능 향상을 달성했습니다. 表七:합성 세부 캡션 数据在 LLaVA-1.5-7B 模型训练中 的 작용[1] Zhuang Li, Yuyang Chai, Terry Zhuo Yue , Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji 및 Quan Hung Tran. 사실: 충실하고 일관된 텍스트 장면 그래프 구문 분석을 위한 벤치마크입니다. arXiv:2305.17497, 2023[2] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. 무엇이든 분류하세요. ICCV 2023[3] Matthias Minderer, Alexey Gritsenko, Neil Houlsby. 개방형 어휘 객체 감지 확장. NIPS 2024[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale 등 Llama 2: 개방형 기반 및 미세 조정된 채팅 모델. arXiv:2307.09288, 2023[5] Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee. 시각적 지침 조정을 통해 기준선을 개선했습니다. NeurIPS 2023 교육 튜닝 및 교육 후속 워크숍, 2023[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding 및 Jie Tang. Cogvlm: 사전 학습된 언어 모델을 위한 시각적 전문가입니다. arXiv:2311.03079, 2023[7] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao 및 Dahua Lin. Sharegpt4v: 더 나은 캡션으로 대규모 다중 모드 모델을 개선합니다. arXiv:2311.12793, 2023[8] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu 및 Xiang Bai. Monkey: 이미지 해상도와 텍스트 라벨은 대규모 다중 모드 모델에 중요한 요소입니다. arXiv:2311.06607, 2023
豆包大模型团队
字节跳动豆包大模型团队成立于 2023년开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发贡献。豆包大模型团队는 AI 领域拥有长期愿景与决心 ,研究方向涵盖 NLP、CV、语음을 等,중國、新加坡、美國等地设有实验室와研究岗位。团队依托平台充足的数据, 计算等资源, 下游支持, 下游支持豆包、扣子、即梦等 50 + 业务,并通过화山引擎开放给企业客户。目前,豆包 APP 已成为中國最大的AIGC 应用。欢迎加入字节跳动豆包大模型团队。https://mp .weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ 위 내용은 Doubao Big Model Team은 VLM 캡션 평가의 신뢰성을 향상시키기 위해 새로운 세부 이미지 캡션 평가 벤치마크를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!