ECCV 2024 │정말 보셨나요, 아니면 봤다고 생각하셨나요? 텍스트 사전 훈련 지식에 대한 대규모 다중 모드 모델의 과도한 의존도를 해결해야 합니다.-일체 포함-php.cn

ECCV 2024 │정말 보셨나요, 아니면 봤다고 생각하셨나요? 텍스트 사전 훈련 지식에 대한 대규모 다중 모드 모델의 과도한 의존도를 해결해야 합니다.

WBOY

풀어 주다： 2024-07-28 07:49:53

원래의

806명이 탐색했습니다.

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pi Renjie는 홍콩 과학 기술 대학에서 공부하는 3년차 박사 과정 학생입니다. Zhang Tong 교수와 Zhou Xiaofang 교수. 이전에는 홍콩 대학교에서 컴퓨터 공학 학사 학위를 받았습니다. 그의 연구 관심 분야는 다중 모드 대형 언어 모델, 데이터 중심 인공 지능, 자동화된 기계 학습입니다.

대형 언어 모델(LLM)의 발전과 함께 멀티모달 대언어 모델(MLLM)도 빠르게 발전하고 있습니다. 사전 훈련된 시각적 인코더를 사용하여 이미지를 처리하고 텍스트 정보와 함께 이미지를 LLM에 대한 토큰 임베딩으로 입력함으로써 이미지 입력 처리를 위한 모델의 대화 기능을 확장합니다. 이러한 기능 향상은 자율 주행 및 의료 보조와 같은 다양한 잠재적 응용 분야에 대한 가능성을 제공합니다.

MLLM은 뛰어난 이미지 및 텍스트 이해 능력을 갖추고 있음에도 불구하고 존재하지 않는 객체에 답하거나 속성을 잘못 식별하는 등 입력 이미지와 일치하지 않는 응답을 생성하는 오류나 환각에 여전히 시달리고 있습니다. 우리는 다중 모드 대형 모델의 다양한 훈련 단계에서 데이터 양과 훈련 시간의 불균형이 이러한 유형의 편향의 주요 원인 중 하나라고 믿습니다. 대규모 다중 모달 모델의 언어 모듈은 사전 학습을 위해 대규모 텍스트 데이터를 사용하는 경우가 많은 반면, 모달 정렬 단계에서는 더 작은 데이터 크기와 짧은 학습 시간을 사용합니다.

위 문제를 해결하기 위해 다중 모달 대형 모델의 환각 현상을 완화하면서 모델의 시각적 이해 능력을 향상시킬 수 있는 선호도 정렬 방법인 BPO(Bootstrapped Preference Optimization)를 제안합니다.

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

논문 제목: 부트스트랩 기본 설정 최적화를 통한 다중 모달 대형 언어 모델 강화
논문 링크: https://arxiv.org/pdf/2403.08730
코드 링크: https://github. com/pipilurj/bootstrapped-preference-optimization-BPO-

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

具體來講，我們設計了兩種方法去自動建構偏好學習的負樣本，使得多模態模型對與訓練的過度依賴暴露出來。之後，我們用原本的資料標註當作正樣本，對多模態模型進行偏好微調。總的來說，我們的主要貢獻有：

1. 我們提出了一種新的視角，將多模態對齊問題轉化為偏好學習任務，其中預訓練偏見和視覺理解能力被視為舊的和新的偏好；

2. 我們介紹了一種自動化建立大規模偏好資料集的方法。透過此方法能建構出大量帶有預訓練偏見訊息的負面樣本；

3. 在大量實驗上證明了我們的方法能有效地提升多模態大模型對於圖像的認知能力，訓練後的模型在多個基準測試中效能提升。

可擴展的偏好資料集建構

對於偏好資料集的正面樣本，已經有許多為監督微調而設計的現成資料集，例如透過LlaVA 和MiniGPT4 產生的高品質標註數據、ShareGPTV 利用強大的GPT4-V 作為工具為圖像產生高品質標題。我們將這些已標註完成的公開資料集作為偏好資料集中的正面回應，在確保高品質資料對的同時避免了昂貴的人工標註。

為了能收集到能反映預訓練偏見的負面響應數據，我們提出了兩種方法。

a. 弱化圖像提示：我們將偏好資料集中的圖片資料加上噪聲，以此破壞圖像特徵，使多模態大模型在回答時更傾向原始的預訓練分佈，由此產生的錯誤回應會包含LLM 模組的固有偏見。從圖中可以看到，我們透過像圖片中加入不同程度的噪聲，正確答案出現的機率就越小，帶有預訓練偏見的答案出現的機率也就越大。

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了