NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界-人工智慧-PHP中文網

在這篇NeurIPS23 論文中，來自魯汶大學、新加坡國立大學和中科院自動化所的研究者提出了一種視覺「讀腦術」，能夠從人類的大腦活動中以高解析度解析出人眼觀看的影像。

在認知神經科學領域，人們意識到人類的感知不僅受到客觀刺激的影響，也深受過去經驗的影響。這些因素共同作用，形成了大腦中複雜的活動。因此，解碼大腦活動中的視覺訊息成為了一項重要的任務。其中，功能性磁振造影（fMRI）作為一種高效的非侵入性技術，在恢復和分析視覺訊息，尤其是影像類別方面發揮關鍵的作用

然而，由於fMRI 訊號的噪聲特性和大腦視覺表徵的複雜性，這項任務面臨著不小的挑戰。針對這個問題，本文提出了一個雙階段fMRI 表徵學習框架，旨在識別並去除大腦活動中的噪聲，並專注於解析對視覺重建至關重要的神經激活模式，成功從大腦活動中重建出高解析度且語意上準確的影像。

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

論文連結：https://arxiv.org/abs/2305.17214

專案連結：https://github.com/soinx0629/vis_dec_neurips/

論文中提出的方法是基於雙重對比學習、跨模態資訊交叉及擴散模型，在相關fMRI 資料集上取得了相對於以往最好模型接近40% 的評測指標提升，在生成影像的品質、可讀性及語意相關性相對於已有方法均有肉眼可感知的提升。此工作有助於理解人腦的視覺感知機制，有益於推動視覺的腦機介面技術的研究。相關程式碼均已開源。

功能性磁振造影（fMRI）雖廣泛用於解析神經反應，但從其數據中準確重建視覺圖像仍具挑戰，主要因為fMRI 數據包含多種來源的噪聲，這些噪聲可能掩蓋神經激活模式，增加解碼難度。此外，視覺刺激引發的神經反應過程複雜多階段，使得 fMRI 訊號呈現非線性的複雜疊加，難以逆轉並解碼。

傳統的神經解碼方式，例如嶺回歸，儘管被用於將 fMRI 訊號與相應刺激關聯，卻常常無法有效捕捉刺激和神經反應之間的非線性關係。近期，深度學習技術，如生成對抗網路（GAN）和潛在擴散模型（LDMs），已被採用以更準確地建模這種複雜關係。然而，將視覺相關的大腦活動從噪音中分離出來，並準確進行解碼，仍然是該領域的主要挑戰之一。

為了應對這些挑戰，該工作提出了一個雙階段fMRI 表徵學習框架，該方法能夠有效識別並去除大腦活動中的噪聲，並專注於解析對視覺重建至關重要的神經激活模式。此方法在產生高解析度及語意準確的影像方面，其 50 分類的 Top-1 準確率超過現有最先進技術 39.34%。

方法概述即為一系列步驟或流程的簡要描述。它用於解釋如何達到特定目標或完成特定任務。方法概述的目的是提供讀者或使用者一個對整個過程的整體了解，以便他們能夠更好地理解和跟隨其中的步驟。在方法概述中，通常包括步驟的順序、所需的材料或工具以及可能遇到的問題或挑戰。透過清晰明了地描述方法概述，讀者或使用者能夠更容易地理解並成功地完成所需的任務

#fMRI 表徵學習(FRL)

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

第一階段：預訓練雙重對比遮罩自動編碼器(DC-MAE)

為了在不同人群中區分共有的大腦活動模式和個體噪聲，本文引入了 DC-MAE 技術，利用未標記資料對 fMRI 表徵進行預訓練。 DC-MAE 包含一個編碼器 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界和一個解碼器，其中 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界以遮蔽的 fMRI 訊號為輸入，則被訓練以預測未遮蔽的 fMRI 訊號。所謂的「雙重對比」是指模型在 fMRI 表徵學習中優化對比損失並參與了兩個不同的對比過程。

在第一階段的對比學習中，每個包含n 個fMRI 樣本v 的批次中的樣本 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界被隨機遮蔽兩次，產生兩個不同的遮蔽版本和，作為對比的正樣本對。隨後，1D 卷積層將這兩個版本轉換為嵌入式表示，分別輸入至 fMRI 編碼器 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界。解碼器接收這些編碼的潛在表示，產生預測值 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界和。透過 InfoNCE 損失函數計算的第一次對比損失，即交叉對比損失，來最佳化模型：

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

在第二階段對比學習中，每個未遮蔽的原始影像 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界及其對應的遮蔽影像形成一對天然正樣本。這裡的代表解碼器 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界預測出的影像。第二次對比損失，也就是自對比損失，根據以下公式進行計算：

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

優化自對比損失 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界能夠實現遮蔽重建。無論是或 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界，負樣本都來自同一批次的實例。和共同如下優化：，其中超參數和用於調節各損失項的權重。

第二階段：使用跨模態指導進行調整

#鑑於fMRI記錄的訊號雜訊比較低且高度卷積的特性，對於fMRI特徵學習器來說，專注於與視覺處理最相關且對重建最有資訊價值的大腦活化模式是至關重要的

在第一階段預訓練後，fMRI 自編碼器透過影像輔助進行調整，以實現 fMRI 的重建，第二階段同樣遵循此過程。具體而言，從 n 個樣本批次中選擇一個樣本 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界及其對應的 fMRI 記錄的神經反應。和 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界經過分割塊和隨機遮蔽處理，分別轉變為和，然後分別輸入到影像編碼器和fMRI 編碼器中，產生 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界和。為重建 fMRI，利用交叉注意力模組將和合併：

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

W 和 b 分別代表對應線性層的權重和偏移。 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界是縮放因子，是鍵向量的維度。 CA 是交叉注意力（cross-attention）的縮寫。加上 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界後，輸入到fMRI 解碼器中以重建，得到：

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

圖片自編碼器也進行了類似的計算，圖像編碼器 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界的輸出 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界透過交叉注意力模組與的輸出合併，然後用於解碼圖像，得到：

#透過最佳化以下損失函數，fMRI 和影像自編碼器共同進行訓練：

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

#產生影像時，可以使用潛在擴散模型（LDM）

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

在完成 FRL 第一階段和第二階段的訓練後，使用 fMRI 特徵學習器的編碼器 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界來驅動一個潛在擴散模型（LDM），從大腦活動生成影像。如圖所示，擴散模型包括一個向前的擴散過程和一個逆向去噪過程。向前過程逐漸將影像降解為常態高斯噪聲，透過逐漸引入變方差的高斯噪聲。

該研究透過從預先訓練的標籤到影像潛在擴散模型（LDM）中提取視覺知識，並利用 fMRI 資料作為條件來產生影像。這裡採用交叉注意力機制，將 fMRI 訊息融入 LDM，遵循穩定擴散研究的建議。為了強化條件資訊的作用，這裡採用了交叉注意力和時間步條件化的方法。在訓練階段，使用VQGAN 編碼器 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界和經FRL 第一和第二階段訓練的fMRI 編碼器 NeurIPS23｜「讀腦」解碼大腦活動重建視覺世界處理圖像u 和fMRI v，並在保持LDM 不變的情況下微調fMRI 編碼器，損失函數為：

其中， NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界是擴散模型的雜訊計畫。在推理階段，過程從時間步長 T 的標準高斯噪聲開始，LDM 依次遵循逆向過程逐步去除隱藏表徵的噪聲，條件化在給定的 fMRI 訊息上。當到達時間步長零時，使用 VQGAN 解碼器 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界將隱藏表徵轉換為影像。