深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖-人工智慧-PHP中文網

图像抠图是指提取图像中准确的前景。当前的自动方法倾向于不加区别地提取图像中的所有显著对象。在本文中，作者提出了一个新的任务称为参考图像抠图 (Referring Image Matting，RIM)，指的是提取特定对象的细致的alpha抠图，它可以最好地匹配给定的自然语言描述。然而，流行的visual grounding方法都局限于分割水平，可能是由于缺乏高质量的RIM数据集。为了填补这一空白，作者通过设计一个全面的图像合成和表达生成引擎，建立了第一个大规模挑战性数据集RefMatte ，以在当前公共高质量抠图前景的基础上生成合成图像，具有灵活的逻辑和重新标记的多样化属性。

RefMatte由230个对象类别、47，500个图像、118，749个表达式区域实体和474，996个表达式组成，将来可以很容易地进一步扩展。除此之外，作者还构建了一个真实世界测试集，该测试集由100幅自然图像组成，使用人工生成的短语标注来进一步评估RIM模型的泛化能力。首先定义了基于提示和基于表达两种背景下的RIM任务，然后测试了几种典型的图像抠图方法以及具体的模型设计。这些结果为现有方法的局限性以及可能的解决方案提供了经验性的见解。相信新任务RIM和新数据集RefMatte将在该领域开辟新的研究方向，并促进未来的研究。

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

论文标题：Referring Image Matting

论文地址： https:// arxiv.org/abs/2206.0514 9

代码地址： https:// github.com/JizhiziLi/RI M

1. Motivation

图像抠图是指提取自然图像中前景的软ahpha抠图，这有利于各种下游应用，如视频会议、广告制作和电子商务推广。典型的抠图方法可以分为两组：1）基于辅助输入的方法，例如trimap，以及2）无需任何人工干预即可提取前景的自动抠图方法。但前者不适用于自动应用场景，后者一般局限于特定的对象类别，如人、动物或所有显著的物体。如何对任意对象进行可控的图像抠图，即提取与给定的自然语言描述最匹配的特定对象的alpha抠图，仍是一个有待探索的问题。

语言驱动的任务，例如referring expression segmentation（RES）、referring image segmentation（RIS）、视觉问答 (VQA) 和 referring expression comprehension (REC) 已被广泛探索。基于ReferIt、Google RefExp、RefCOCO、VGPhraseCut和Cops-Ref等许多数据集，这些领域已经取得了很大进展。例如，RES 方法旨在分割由自然语言描述指示的任意对象。然而，获得的mask仅限于没有精细细节的分割级别，由于数据集中的低分辨率图像和粗略的mask标注。因此，它们不可能用于需要对前景对象进行细致 Alpha 抠图的场景。

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

为了填补这一空白，作者在本文中提出了一项名为“Referring Image Matting (RIM)”的新任务。 RIM 是指在图像中提取与给定自然语言描述最匹配的特定前景对象以及细致的高质量 alpha 抠图。与上述两种抠图方法解决的任务不同，RIM 旨在对语言描述指示的图像中的任意对象进行可控的图像抠图。在工业应用领域具有现实意义，为学术界开辟了新的研究方向。

为了促进 RIM 的研究，作者建立了第一个名为 RefMatte 的数据集，该数据集由 230 个对象类别、47,500 个图像和 118,749 个表达式区域实体以及相应的高质量 alpha matte 和 474,996 个表达式组成。

具体来说，为了构建这个数据集，作者首先重新访问了许多流行的公共抠图数据集，如 AM-2k、P3M-10k、AIM-500、SIM，并手动标记仔细检查每个对象。作者还采用了多种基于深度学习的预训练模型为每个实体生成各种属性，例如人类的性别、年龄和衣服类型。然后，作者设计了一个综合的构图和表达生成引擎，以生成具有合理绝对和相对位置的合成图像，并考虑其他前景对象。最后，作者提出了几种表达逻辑形式，利用丰富的视觉属性生成不同的语言描述。此外，作者提出了一个真实世界的测试集 RefMatte-RW100，其中包含 100 张包含不同对象和人类注释表达的图像，用于评估 RIM 方法的泛化能力。上图显示了一些示例。

為了對相關任務中的最新方法進行公平和全面的評估，作者在RefMatte 上根據語言描述的形式在兩種不同的設置下對它們進行基準測試，即基於提示的設置和基於表達的設置。由於代表性方法是專門為分割任務設計的，直接將它們應用於 RIM 任務時仍然存在差距。

為了解決這個問題，作者提出了兩種為RIM 定制它們的策略，即1）在CLIPSeg 之上精心設計了一個名為CLIPmat 的輕量級摳圖頭，以產生高品質的alpha 摳圖結果，同時保持其端到端可訓練的管道； 2）提供了幾種單獨的基於粗圖的摳圖方法作為後期精煉器，以進一步改善分割/摳圖結果。廣泛的實驗結果 1) 展示了所提出的 RefMatte 資料集對於 RIM 任務研究的價值，2) 確定語言描述形式的重要作用； 3) 驗證提議的客製化策略的有效性。

本研究的主要貢獻有三個面向。 1）定義了一個名為RIM 的新任務，旨在識別和提取與給定自然語言描述最匹配的特定前景對象的alpha摳圖；2）建立了第一個大規模數據集RefMatte，由47,500張圖像和118,749個表達區域實體組成，具有高品質的alpha摳圖和豐富的表達；3) 在兩種不同的設定下使用兩種針對RefMatte 的RIM 定制策略對具有代表性的最先進方法進行了基準測試，並獲得了一些有用的見解。

2.方法

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

在本節中，將介紹建構RefMatte（第3.1 節和第3.2 節）的pipeline以及任務設定（第3.3節）和資料集的統計資訊（第3.5 節）。上圖展示RefMatte 的一些範例。此外，作者還建立了一個真實世界的測試集，由 100 張自然圖像組成，並帶有手動標記的豐富語言描述註釋（第 3.4 節）。

2.1 Preparation of matting entities

為了準備足夠多的高品質摳圖實體來幫助建立RefMatte 資料集，作者重新存取目前可用的摳圖資料集以過濾出滿足要求的前景。然後手動標記所有候選實體的類別並利用多個基於深度學習的預訓練模型來註釋它們的屬性。

Pre-processing and filtering

由於圖像摳圖任務的性質，所有候選實體都應該是高解析度的，並且在alpha 摳圖中具有清晰和精細的細節。此外，數據應該透過開放許可公開取得，並且沒有隱私問題，以促進未來的研究。針對這些要求，作者採用了來自 AM-2k 、P3M-10k 和 AIM-500的所有前景影像。具體來說，對於 P3M-10k，作者過濾掉具有兩個以上黏性前景實例的圖像，以確保每個實體僅與一個前景實例相關。對於其他可用的資料集，如 SIM、DIM和 HATT，作者過濾掉那些在人類實例中具有可辨識臉孔的前景影像。作者也過濾掉那些低解析度或具有低品質 alpha 摳圖的前景影像。最終實體總數為 13,187 個。對於後續合成步驟中使用的背景影像，作者選擇 BG-20k 中的所有影像。

Annotate the category names of entities

#由於先前的自動摳圖方法傾向於從圖像中提取所有顯著的前景對象，因此它們沒有為每個實體提供特定的（類別）名稱。但是，對於 RIM 任務，需要實體名稱來描述它。作者為每個實體標記了入門級類別名稱，它代表人們對特定實體最常用的名稱。在這裡，採用半自動策略。具體來說，作者使用具有 ResNet-50-FPN主幹的 Mask RCNN 偵測器來自動偵測和標記每個前景實例的類別名稱，然後手動檢查和修正它們。 RefMatte 共有 230 個類別。此外，作者採用 WordNet為每個類別名稱產生同義詞以增強多樣性。作者手動檢查同義詞並將其中一些替換為更合理的同義詞。

Annotate the attributes of entities

為了確保所有實體具有豐富的視覺屬性以支援形成豐富的表達式，作者為所有實體標註了顏色、人類實體的性別、年齡和衣服類型等多種屬性。作者也採用半自動策略來產生此類屬性。為了產生顏色，作者將前景影像的所有像素值聚類，找出最常見的值，並將其與 webcolors 中的特定顏色進行匹配。對於性別和年齡，作者採用預訓練模型。依照常識根據預測的年齡來定義年齡組。對於衣服類型，作者採用預訓練模型。此外，受前景分類的啟發，作者為所有實體添加了顯著或不顯著以及透明或不透明的屬性，因為這些屬性在圖像摳圖任務中也很重要。最終，每個實體至少有 3 個屬性，人類實體至少有 6 個屬性。

2.2 Image composition and expression generation

基於上一節收集的摳圖實體，作者提出了一個影像合成引擎和表達式產生引擎來建構RefMatte 資料集。如何將不同的實體排列形成合理的合成影像，同時產生語義清晰、語法正確、豐富、花俏的表達方式來描述這些合成影像中的實體，是建構RefMatte的關鍵，也是具有挑戰性的。為此，作者定義了六種位置關係，用於在合成影像中排列不同的實體，並利用不同的邏輯形式來產生適當的表達。

Image composition engine

為了保持實體的高分辨率，同時以合理的位置關係排列它們，作者為每個合成圖像採用兩個或三個實體。作者定義了六種位置關係：左、右、上、下、前、後。對於每個關係，首先產生前景圖像，並透過 alpha 混合將它們與來自 BG-20k的背景圖像合成。具體來說，對於左、右、上、下的關係，作者確保前景實例中沒有遮蔽以保留它們的細節。對於前後關係，透過調整它們的相對位置來模擬前景實例之間的遮蔽。作者準備了一袋候選詞來表示每個關係。

Expression generation engine

為了給合成影像中的實體提供豐富的表達方式，作者從定義的不同邏輯形式的角度為每個實體定義了三種表達方式，其中深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖代表屬性，代表類別名稱，代表參考實體和相關實體之間的關係，具體三種表達的例子如上圖（a），（b）和（c ）所示。

2.3 Dataset split and task settings

Dataset split

資料集總共有13,187 個摳圖實體，其中11,799 個用於建立訓練集，1,388 個用於測試集。然而，訓練集和測試集的類別並不平衡，因為大多數實體屬於人類或動物類別。具體來說，在訓練集中的 11799 個實體中，有 9186 個人類、1800 個動物和 813 個物體。在包含 1,388 個實體的測試集中，有 977 個人類、200 個動物和 211 個物件。為了平衡類別，作者複製實體以實現人類：動物：物件的 5:1:1 比率。因此，在訓練集中有 10,550 個人類、2,110 個動物和 2,110 個對象，在測試集中有 1,055 個人類、211 個動物和 211 個對象。

為了為 RefMatte 產生影像，作者從訓練或測試split中挑選 5 個人類、1 個動物和 1 個物件作為一組，並將它們輸入影像合成引擎。對於訓練或測試split中的每一組，作者產生 20 張圖像來形成訓練集，並產生 10 張圖像來形成測試集。左/右：上/下：前/後關係的比例設定為 7:2:1。每個影像中的實體數量設定為 2 或 3。對於前後關係，作者總是選擇 2 個實體來保持每個實體的高解析度。在這個過程之後，就有 42,200 個訓練圖像和 2,110 個測試圖像。為了進一步增強實體組合的多樣性，我作者所有候選人中隨機選擇實體和關係，形成另外 2800 個訓練圖像和 390 個測試圖像。最後，在訓練集中有 45,000 張合成影像，在測試集中有 2,500 張圖像。

Task setting

為了在給定不同形式的語言描述的情況下對RIM 方法進行基準測試，作者在RefMatte 中設定了兩個設定：

基於提示的設定（Prompt-based settin）：此設定中的文字描述為提示，即實體的入門級類別名稱，例如上圖中的提示分別為花、人、羊駝；

基於表達式的設定（Expression-based setting）：此設定中的文字描述是上一節中產生的表達式，從基本表達式、絕對位置表達式和相對位置表達式中選擇。從上圖中也可以看到一些範例。

2.4 Real-world test set

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

由於 RefMatte 是基於合成圖像構建的，因此它們與真實世界圖像之間可能存在域差距。為了研究在其上訓練的RIM 模型對真實世界圖像的泛化能力，作者進一步建立了一個名為RefMatte-RW100 的真實世界測試集，它由100 張真實世界的高分辨率圖像組成，每張圖像中有2 到3 個實體。然後，作者按照3.2節中相同的三個設定來註解它們的表達式。此外，作者在註釋中加入了一個自由表達式。對於高品質的 alpha 摳圖標籤，作者使用影像編輯軟體產生它們，例如 Adobe Photoshop 和 GIMP。 RefMatte-RW100 的一些例子如上圖所示。

2.5 Statistics of the RefMatte dataset and RefMatte-RW100 test set

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

##作者計算了 RefMatte 資料集和 RefMatte-RW100 測試集的統計資料如上表所示。對於基於提示的設置，由於文字描述是入門級類別名稱，作者將具有多個實體屬於同一類別的圖像刪除以避免模棱兩可的推理。因此，在此設定中，在訓練集中有 30,391 張圖像，在測試集中有 1,602 張圖像。 alpha摳圖的數量、文字描述、類別、屬性和關係分別顯示在上表。在基於提示的設定中，平均文字長度約為1，因為每個類別通常只有一個單詞，而在基於表達的設定中則要大得多，即在RefMatte 中約為16.8，在RefMatte-RW100 中約為12。

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

作者也在上圖中產生了 RefMatte 中的提示、屬性和關係的詞雲。可以看出，資料集有很大一部分人類和動物，因為它們在圖像摳圖任務中非常常見。 RefMatte 中最常見的屬性是男性、灰色、透明和顯著，而關係詞則較為平衡。

3.實驗

由於 RIM 和 RIS/RES 之間存在任務差異，直接將 RIS/RES 方法應用於 RIM 的結果並不樂觀。為了解決這個問題，作者提出了兩種為RIM 定制它們的策略：

1）Adding matting head：在現有模型之上設計輕量級matting heads，以產生高品質的alpha 摳圖，同時保持端到端可訓練pipeline。具體來說，作者在CLIPSeg之上設計了一個輕量級的摳圖解碼器，稱為CLIPMat；

2）Using matting refiner：作者採用單獨的基於粗圖的摳圖方法作為後細化器，以進一步改善上述方法的分割/摳圖結果。具體來說，作者訓練 GFM和 P3M，輸入影像和粗圖作為摳圖細化器。

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

作者在 RefMatte 測試集的基於提示的設定上評估 MDETR 、CLIPSeg和 CLIPMat，並將定量結果顯示在上表中。可以看出，與 MDETR 和 CLIPSeg 相比， CLIPMat 表現最好，無論是否使用摳圖精煉器，驗證添加摳圖頭為 RIM 任務自訂 CLIPSeg 的有效性。此外，使用兩種摳圖細化器中的任何一種都可以進一步提高三種方法的性能。

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

作者也在 RefMatte 測試集和 RefMatte-RW100 的基於表達式的設定下評估了這三種方法，並在上表中顯示了定量結果。 CLIPMat 再次在 RefMatte 測試集上表現出良好的保留更多細節的能力。在 RefMatte-RW100 上進行測試時，像 CLIPSeg 和 CLIPMat 這樣的單階段方法落後於兩階段方法，即 MDETR，這可能是由於 MDETR 的檢測器在理解跨模態語義方面的能力更好。

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

為了調查提示輸入形式的影響，作者評估了不同提示範本的效能。除了使用的傳統模板外，作者還添加了更多專為圖像摳圖任務設計的模板，例如the foreground/mask/alpha matte of

。結果如上表所示。可以看到 CLIPmat 在不同提示下的效能差異很大。

深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖

由於本文在任務中引入了不同類型的表達式，因此可以看到每種類型對摳圖效能的影響。如上表所示，在 RefMatte 測試集上測試了表現最好的模型 CLIPMat，在 RefMatte-RW100 上測試了模型 MDETR。

4. 總結

在本文中，本文提出了一個名為引用圖像摳圖（RIM）的新任務，並建立了一個大規模的資料集 RefMatte。作者在 RIM 的相關任務中客製化現有的代表性方法，並透過在 RefMatte 上的廣泛實驗來衡量它們的表現。本文的實驗結果為模型設計、文字描述的影響以及合成圖像和真實圖像之間的領域差距提供了有用的見解。 RIM的研究可以有益於互動式影像編輯和人機互動等許多實際應用。 RefMatte 可以促進該領域的研究。然而，合成到真實的領域差距可能會導致對真實世界圖像的泛化有限。

以上是深度學習又有新坑了！雪梨大學提出全新跨模態任務，以文字指導圖像進行摳圖的詳細內容。更多資訊請關注PHP中文網其他相關文章！