「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR-人工智慧-PHP中文網

多模態對比表示（MCR）旨在將來自不同模態的輸入編碼到一個語義對齊的共享空間中

隨著視覺-語言領域中CLIP模型的巨大成功，越來越多的模態對比表徵開始出現，並在許多下游任務上取得明顯的改善，但這些方法嚴重依賴於大規模高品質的配對資料

為了解決這個問題，來自浙江大學等機構的研究人員提出了連接多模態對比表示（C-MCR），一種無需配對資料且訓練極為高效的多模態對比表徵學習方法。

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

請點擊以下連結查看論文：https://arxiv.org/abs/2305.14381

C-MCR專案首頁連結：https://c-mcr.github.io/C-MCR/

模型與程式碼位址：https://github.com/MCR -PEFT/C-MCR

該方法在不使用任何配對資料的情況下，透過樞紐模態連接不同的預訓練對比表徵，我們學習到了強大的音訊-視覺和3D點雲-文字表徵，並在音訊-視覺檢索、聲音來源定位、3D物件分類等多個任務上取得了SOTA效果。

介紹

多模態對比表示（MCR）旨在將不同模態的資料對應到統一的語意空間。隨著CLIP在視覺-語言領域的巨大成功，學習更多模態組合之間的對比表示已成為一個熱門研究主題，吸引了越來越多的關注。

然而，現有多模態對比表示的泛化能力主要受益於大量高品質資料對。這嚴重限制了對比表徵在缺乏大規模高品質數據的模態上的發展。例如，音訊和視覺資料對之間的語義相關性往往是模糊的，3D點雲和文字之間的配對資料稀缺且難以取得。

不過，我們觀察到，這些缺乏配對資料的模態組合，往往和同一個中間模態具有大量高品質配對資料。例如，在音訊-視覺領域，儘管視聽資料品質不可靠，但音訊-文字和文字-視覺之間存在大量高品質的配對資料。

同樣，雖然3D點雲-文字配對資料的可用性有限，但3D點雲-圖像和圖像-文字資料卻非常豐富。這些樞紐模態可以為模式之間建立進一步關聯的紐帶。

考慮到具有大量配對資料的模態間往往已經擁有預訓練的對比表示，本文直接嘗試透過樞紐模態來將不同模態間的對比表徵連接起來，從而為缺乏配對資料的模態組合建構新的對比表徵空間。

使用連接多模態對比表示（C-MCR）可以透過重疊模態來建構已有大量多模態對比表示的連接，從而學習更廣泛的模態之間的對齊關係。這個學習過程不需要任何配對數據，並且具有極高的效率

C-MCR具有兩個關鍵優勢：

重點在於靈活性：

C-MCR的能力在於為模態學習提供缺乏直接配對的對比表徵。從另一個角度來看，C-MCR將每個現有的多模態對比表示空間視為一個節點，並將重疊的模態視為關鍵的樞紐模態

透過連結各個孤立的多模態對比表徵，我們能夠靈活地擴展所獲得的多模態對齊知識，並挖掘出更廣泛的模態間對比表示

###### ###2、高效性：###############由於C-MCR只需為現有的表徵空間建立連接，因此只用學習兩個簡單的映射器，其訓練參數和訓練成本都是極低的。 ############在這項實驗中，我們使用文字作為樞紐，將視覺-文字（CLIP）和文字-音訊（CLAP）進行對比表示空間的連接，最終得到了高品質的視覺-音訊表示############類似地，透過使用圖像連接文字-視覺（CLIP）和視覺-3D點雲（ULIP）進行比較來表示空間，也可以得到一組3D點雲-文字對比表示#########方法#########圖1 (a) 介紹了C-MCR的演算法流程（以使用文字連接CLIP和CLAP為例）。 ######

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

文字（重疊模態）的資料分別被CLIP和CLAP的文字編碼器編碼為文字特徵：、。

同時，還有大量的非配對單模態資料被分別編碼到CLIP和CLAP空間中，形成了影像記憶和音訊記憶

#特徵語意增強是指透過對特徵進行改進和最佳化，以提升其語意表達能力的過程。透過對特徵進行適當的調整，可以使其更準確地反映所要表達的含義，從而提高語言表達的效果。特徵語意增強技術在自然語言處理領域具有重要的應用價值，可以幫助機器理解和處理文字訊息，提高機器在語意理解和語意生成方面的能力

##我們可以從提升表徵的語意訊息出發，以增強空間連結的穩健性和全面性。在此方面，我們首先從語意一致性與語意完整性兩個角度進行探討

#模態間語意一致性

CLIP和CLAP分別已經學到了可靠的對齊的圖像-文字和文字-音訊表徵。

我們利用CLIP和CLAP中這種內在的模態對齊性來產生與第i個文字語義一致的圖像和音訊特徵，從而更好地量化對比表徵空間中的modality gap以及更直接的挖掘非重疊模態間的關聯性：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

模態內語意完整性

不同表徵空間對於資料的語意表達會有不同的傾向性，因此不同空間下的同一個文本也會不可避免的存在語意偏差和遺失。在連結表示空間時，這種語意偏差會被累積並且放大。

為了增強每個表徵的語意完整性，我們提出將零均值高斯雜訊加入表徵中，並將它們重新歸一化為單位超球面上：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

如圖1 (c) 所示，在對比表徵空間中，每個表徵可以看代表是在單位超球面上的點。添加高斯噪聲並重新歸一化則使表徵能夠代表了單位球面上的一個圓。

當兩個特徵的空間距離越接近時，它們的語意相似度也越高。因此，圓內的特徵都具有相似的語義，圓能夠更完整地表示語意

2. Inter-MCR的對齊

在表徵語意增強之後，我們使用兩個映射器和來將CLIP和CLAP表徵重新對應到一個新的共享空間

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

新空間需要確保來自不同空間的語意相似的表徵彼此接近。

來自同一文本的( 「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR ,) 是天然語意一致的，可以被看做真實標籤對，而源自於(,) 的(,) 可以被視為偽標籤對。

( 「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR ,#) 之間的語義高度一致，但從它們學習到的連接對於音頻-視覺來說是間接的。而(,)對的語意一致性雖然較不可靠，但其較直接地有利於音頻-視覺表徵。

為了更全面地連接兩個對比表徵空間，我們同時對齊( 「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR ,) 和(#,)：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

#3. Intra-MCR的對準

除了空間之間的連接，對比表徵空間內部還存在著modality gap的現象。即在對比表徵空間中，不同模態的表徵雖然語意對齊，但它們分佈在完全不同的子空間中。這意味著從 ( 「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR ,) 學習到的更穩定的連結可能無法很好的被音訊-視覺繼承。

為了解決這個問題，我們提出重新對齊各個對比表徵空間的不同模態表徵。具體來說，我們去除對比損失函數中的負例排斥結構，來推導出用於減少modality gap的損失函數。典型的對比損失函數可以表述為：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

#我們消除其中的負對排斥項後，最終的公式可以簡化為：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

實驗

在實驗上，我們透過使用文字連接音訊-文字空間（CLAP）和文字-視覺空間（CLIP）來獲得音訊-視覺表徵，使用影像連接3D點雲-影像空間（ULIP）和影像-文字空間（CLIP）來獲得3D點雲-文字表徵。

在AVE和Flickr-SoundNet上進行零樣本音訊影像擷取的結果如下：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

MUSIC-Solo與VGGSS上的零樣本聲音來源定位結果如下：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

在Ex-VGGSS和Ex-FlickrNet上的零樣本反事實音訊影像辨識結果如下所示：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

在ModelNet40上的zero- shot 3D點雲分類結果如下：

「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR

以上是「無需配對數據」就能學習！浙大等提出連結多模態對比表徵C-MCR的詳細內容。更多資訊請關注PHP中文網其他相關文章！