'使用Stable Diffusion技術重現影像，相關研究被CVPR會議接受'-人工智慧-PHP中文網

'使用Stable Diffusion技術重現影像，相關研究被CVPR會議接受'

WBOY

發布： 2023-04-26 12:43:08

轉載

783 人瀏覽過

如果人工智慧可以解讀你的想像，將你腦海中的圖像變成現實，那會怎麼樣？

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

雖然這聽起來有點賽博龐克。但最近發表的一篇論文，讓 AI 圈吵翻了天。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

這篇論文發現，他們使用最近非常火辣的Stable Diffusion，就能重建大腦活動中的高分辨率、高精準影像。作者寫道，與先前的研究不同，他們不需要訓練或微調人工智慧模型來創建這些圖像。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

#論文網址：https://www .biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
網頁網址：https://sites.google.com/view/ stablediffusion-with-brain/

他們是怎麼做到的呢？

在本研究中，作者基於 Stable Diffusion 來重建透過功能性磁振造影 (fMRI) 而獲得的人腦活動影像。作者也表示，透過研究與大腦相關功能的不同組成部分（例如圖像 Z 的潛在向量等），也有助於了解隱擴散模型的機制。

這篇論文也已經被 CVPR 2023 接收。

該研究的主要貢獻包括：

#證明了其簡單框架可以從具有高語義保真度的大腦活動中重建高解析度（512×512）影像，而無需訓練或微調複雜的深度生成模型，如下圖所示；
透過將特定組成部分映射到不同的大腦區域，該研究從神經科學的角度定量解釋了LDM 的每個組成部分；
該研究客觀地解釋了LDM 實現的文本到圖像轉換過程如何結合條件文本表達的語意訊息，同時保持原始影像的外觀。

方法概覽

該研究的整體方法如下圖 2 所示。圖 2（上）是該研究中使用的 LDM 示意圖，其中，ε 表示圖像編碼器，D 表示圖像解碼器，τ 表示文字編碼器（CLIP）。

圖 2（中）是本研究的解碼分析示意圖。研究者分別從早期（藍色）和高級（黃色）視覺皮層內的 fMRI 訊號中解碼了呈現圖像 (z) 和相關文本 c 的潛在表徵。這些潛在表徵被用作產生重建影像 X_zc 的輸入。

圖 2（下）是本研究的編碼分析示意圖。研究者建構了編碼模型來預測來自 LDM 不同組成部分的 fMRI 訊號，包括 z、c 和 z_c。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

有關 Stable Diffusion 這裡就不做太多介紹，相信很多人比較了解。

結果

我們來看看該研究的視覺重建結果。

解碼

下圖 3 展示了一個主體（subj01）的視覺重建結果。研究者為每個測試影像產生了五個影像，並選擇了具有最高 PSM 的影像。一方面，只用 z 重建的圖像在視覺上與原始圖像一致，但未能抓住其語義內容。另一方面，只用 c 重建的圖像產生的圖像具有很高的語義保真度，但在視覺上卻不一致。最後，使用 z_c 重建的影像可以產生具有高語義保真度的高解析度影像。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

圖4 展示了所有測試者對相同影像的重建影像（所有影像都是用z_c 產生的）。整體來說，各測試者的重建品質是穩定且準確的。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

#圖5 是量化評估的結果：

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

#編碼模型

#圖6 顯示了編碼模型對與LDM 相關的三種潛像的預測精度：z，原始圖像的潛像；c，圖像文本註釋的潛像；以及z_c，經過與c 交叉注意力反向擴散過程後的z 的加噪潛像表徵。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

圖 7 顯示，當加入少量的雜訊時，z 對整個皮質的體素活動的預測比 z_c 更好。有趣的是，當增加噪音水平時，z_c 對高位視覺皮層內體素活動的預測優於 z，這表明圖像的語義內容逐漸被強調。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

在迭代去噪過程中，加入雜訊的潛在表徵如何改變？圖 8 顯示，在去雜訊過程的早期階段，z 訊號主導了 fMRI 訊號的預測。在去噪過程的中間階段，z_c 對高位視覺皮層內活動的預測比 z 好得多，表明大部分語義內容在這個階段出現了。結果顯示了 LDM 如何從雜訊中提煉和生成影像。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

最後，研究者探討了 U-Net 的每一層都在處理什麼資訊。圖 9 顯示了去雜訊過程的不同步驟（早期、中期、晚期）以及 U-Net 不同層的編碼模型的結果。在去噪過程的早期階段，U-Net 的瓶頸層（橘色）在整個皮質中產生了最高的預測效能。然而，隨著去噪的進行，U-Net 的早期層（藍色）預測早期視覺皮層內的活動，而瓶頸層則轉向對更高的視覺皮層的卓越預測能力。

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了