將影像自動文字化，影像描述品質更高、更準確了-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

皮仁傑：香港科技大學博士三年級學生，師從張潼教授和周曉方教授。於 2024 年獲得蘋果獎學金。目前主要研究方向為多模態大語言模型和資料為中心的 AI。

張鑑殊：武漢大學本科三年級學生，目前在張潼教授的指導下擔任研究實習生，主要研究方向是大語言模型，多模態大語言模型以及持續學習。當下在尋找 2025 fall 博士入學機會。

在當今的多模態大模型的發展中，模型的性能和訓練數據的質量關係十分緊密，可以說是 “數據賦予了模型的絕大多數能力”。

在這其中，圖像 - 文字資料集發揮著至關重要的作用，在圖像理解、文字生成和圖像檢索等多個領域發揮關鍵作用。

然而，現有的影像描述資料集主要來自網頁抓取和人工標註，存在著品質參差不齊、細節缺失、描述噪音多等問題。儘管人類可以為影像提供詳細的描述，但高昂的標註成本限制了其規模和可行性。因此，迫切需要一種高效、可擴展的方法來產生準確且詳細的圖像描述。

為了回應上述挑戰，來自香港科技大學、武漢大學、浙江大學、UIUC的研究者聯合提出了一種創新的自動化框架——Image-Textualization（IT），該框架透過整合多模態大語言模型（MLLMs）和多種視覺專家模型的協作，將圖片資訊進行文本化，最後利用擁有強大的推理能力的純文本大語言模型將這些文本化的信息轉化為高品質的圖像描述。

將影像自動文字化，影像描述品質更高、更準確了

論文：Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
論文地址：https://arxiv.org/pdf/2406.07502v1
項目地址：https: //github.com/sterzhang/image-textualization/

將影像自動文字化，影像描述品質更高、更準確了

總的來說，本文貢獻包括：

創新框架：我們提出了圖像文本化框架，利用多模態大模型的的粗粒度圖像理解能力，視覺專家模型的精細感知能力，以及純文本大語言的模型的推理能力去自動生成細節豐富且語言表達清晰的圖像描述。
評估基準與實驗：提出了多個評估細節豐富的圖片描述的基準，透過廣泛的實驗驗證了框架的有效性。
資料集與程式碼發布：利用我們的圖像文字化框架，我們產生了一個大規模高品質的圖像描述資料集（IT-170K）。為了促進未來的研究，我們已將所有原始碼和生成的資料集公開發布。

將影像自動文字化，影像描述品質更高、更準確了

Image Textualization 方法

Image-Textualization（IT）框架包括以下三個階段：

1. 粗粒度的圖片文本化（Holistic Textualization）：首先利用多模態大語言模型對圖片生成參考描述，儘管這些描述可能存在細節缺失和幻覺，但它們為圖像的視覺信息和語言表達提供了基本結構。這裡視覺的結構主要體現在參考描述中往往會包含一些大的，核心的物體，這個可以為後續的細節提供類似「錨點」的作用，能夠使得最後的文本化重述（Textualized Recaptioning）更好的添加細節。另外，語言表達上的結構主要體現在多模態大模型所包含的純文字大語言模型使得其擁有較強的語言能力，這使得這裡產生的參考描述能夠在語言上有良好的組織，例如會先說出這張圖片大概描述了些什麼，然後展開細節，最後總結，這種描述風格較為偏向人類的偏好。這也能夠使得最後的文本化重述（Textualized Recaptioning）能夠在一個語言能力較好的模板上進行加工。

2. 視覺細節文本化（Visual Detail Textualization）：這個階段我們同時從圖片端和文字端進行細節的擷取。

首先是文本端，由於在上一階段中我們利用多模態大模型產生的參考描述可能含有幻覺，所以這裡首先做的是 “幻覺檢測”。我們首先利用 LLM 去抓取參考描述中含有的實體，再利用了一個開集檢測器去圖片裡對這個實體進行匹配，如果沒有被檢測出來，則將這個實體判斷為幻覺。這裡我們把檢測出來的幻覺也進行了文本化，在最後的文本化重述（Textualized Recaptioning）進行刪除。

將影像自動文字化，影像描述品質更高、更準確了

在視覺端，我們利用在高分辨率圖片上訓練出來的各個任務上的視覺專家模型提取圖像中的細節信息。想要將一個圖片上的物體的細節信息利用文本表達出來僅用物體的 caption 是不夠的，我們首先利用提取這些物體的 bounding box 來把這些物體的左右關係給用文本的方式體現出來。但圖片中的物體不僅有左右訊息，還有前後訊息。對此，我們首先利用分割模型將這些物體的 mask 給提取出來，再將原本的圖片轉換為深度圖，透過計算深度圖中特定物體 mask 對應的深度分數來將深度資訊由文字體現出來。至此，我們能利用文字還原出圖片中各個物體的大小，左右位置，前後關係等細節資訊。

將影像自動文字化，影像描述品質更高、更準確了

3. 文字化重述（Textualized Recaptioning）：結合前兩個階段的圖片資訊文字化的結果，加上我們透過精心設計的改寫prompt，純文字的大語言模型能夠很好的透過純文字還原出圖片的訊息，並透過強大理解和推理能力產生詳細且準確的圖像描述。

全面評估與實驗驗證

為了驗證我們框架的有效性，我們建立了三個評估基準，分別是DID-Bench（詳細影像描述基準）、D2I-Bench（描述到影像基準）和LIN -Bench（語言基準）。我們進行了廣泛的實驗，結果顯示 IT 框架產生的影像描述在細節豐富度和準確性方面顯著優於現有方法。尤其是，透過我們的 IT 框架產生的資料集訓練的 MLLMs，如 LLaVA-7B，展現出了更強的圖像描述能力，減少了幻覺現象。

DID-Bench（詳細圖像描述基準）：用於評估圖片描述和人類手動標的詳細的圖片描述的相似性。可以看到我們的修改後的 IT-{LLaVA} 和 IT-{GPT4-V} 圖片描述都比修改前的要更詳細和準確，更貼合人類標註出來的描述。

將影像自動文字化，影像描述品質更高、更準確了