近日,北大、史丹佛、以及爆火的Pika Labs聯合發表了一項研究,將大模型文生圖的能力提升到了新的高度。
論文網址:https://arxiv.org/pdf/2401.11708.pdf
程式碼網址:https://github.com/YangLing0818/RPG-DiffusionMaster
論文作者提出了一個創新的方法,利用多模態大語言模型(MLLM)的推理能力,來改進文字到圖像生成/編輯的框架。
換言之,此方法旨在提昇文生成模型在處理包含多個屬性、關係和物件的複雜文字提示時的表現表現。
話不多說,直接上圖:
#A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style.
一個穿著橙色連身裙的雙馬尾女孩坐在沙發上,大窗戶旁是凌亂的辦公桌,右上方擺放著一個活潑的水族館,房間風格寫實主義。
面對關係複雜的多個對象,模型所給予的整個畫面的結構、人與物品的關係都非常合理,使觀者眼前一亮。
而對於同樣的提示,我們來看看目前最先進的SDXL和DALL·E 3的表現:
再看一下新框架面對多個物件綁定多個屬性時的表現:
研究人員將這個框架命名為RPG(Recaption,Plan and Generate),採用MLLM作為全域規劃器,將複雜影像的產生過程分解為子區域內多個更簡單的生成任務。From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily.##papp
從左到右,一個穿著白色襯衫、綁著金髮馬尾辮的歐洲女孩,一個穿著印著小鳥的藍色襯衫、棕色捲髮的非洲女孩,一個穿著西裝、黑色短髮的亞洲年輕人正開心地在校園裡散步。
文中提出了互補的區域擴散,實現區域組合生成,還將文字引導的圖像生成和編輯以閉環方式集成到了RPG框架中,從而增強了泛化能力。
實驗表明,本文提出的RPG框架優於目前最先進的文字圖像擴散模型,包括DALL·E 3和SDXL,尤其是在多類別物件合成以及文字圖像語義對齊方面。
值得注意的是,RPG框架可以廣泛地相容於各種MLLM架構(如MiniGPT-4)和擴散骨幹網路(如ControlNet)。
RPG
目前的文生圖模型主要有兩個問題:1. 基於佈局或基於注意力的方法只能提供粗略的空間引導,而且難以處理重疊的物件;2. 基於回饋的方法需要收集高品質的回饋數據,並產生額外的訓練成本。為了解決這些問題,研究者提出了RPG的三個核心策略,如下圖所示:
給定一個包含多個實體和關係的複雜文字提示,首先利用MLLM將其分解為基本提示和高度描述性的子提示;隨後,利用多模態模型的CoT規劃將影像空間劃分為互補的子區域;最後,引入互補區域擴散來獨立產生每個子區域的影像,並在每個取樣步驟中進行聚合。
將文字提示轉換為高度描述性的提示,提供資訊增強的提示理解和擴散模型中的語義對齊。
使用MLLM來辨識使用者提示y中的關鍵字詞,以獲得其中的子項:
# #使用LLM將文字提示符分解為不同的子提示符,並進行更詳細的重新描述:
透過這種方式,可以為每個子提示產生更密集的細粒度細節,以有效地提高生成影像的保真度,並減少提示和影像之間的語義差異。
#將影像空間分割成互補的子區域,並為每個子區域分配不同的子提示,同時將生成任務分解為多個更簡單的子任務。
具體來說,將影像空間H×W分割為若干互補區域,並將每個增強子提示符號指派給特定區域R:
#利用MLLM強大的思維鏈推理能力,進行有效的區域劃分。透過分析重新獲得的中間結果,就能為後續的影像合成產生詳細的原理和精確的說明。
在每個矩形子區域內,獨立產生由子提示引導的內容,隨後調整大小和連接的方式,在空間上合併這些子區域。
這種方法有效地解決了大模型難以處理重疊物件的問題。此外,論文擴展了這個框架,以適應編輯任務,採用基於輪廓的區域擴散,從而對需要修改的不一致區域精確操作。
#如上圖所示。在複述階段,RPG採用MLLM作為字幕來複述來源圖像,並利用其強大的推理能力來識別圖像和目標提示之間的細粒度語義差異,直接分析輸入圖像如何與目標提示對齊。
使用MLLM(GPT-4、Gemini Pro等)來檢查輸入與目標之間關於數值準確性、屬性綁定和物件關係的差異。由此產生的多模態理解回饋將交付給MLLM,用於推理編輯計畫。
我們來看看生成效果在以上三個方面的表現,首先是屬性綁定,對比SDXL、DALL·E 3和LMD :
我們可以看到在所有三項測試中,只有RPG最準確地反映了提示所描述的內容。
接著是數值準確性,顯示順序同上(SDXL、DALL·E 3、LMD 、RPG):
-沒想到要數這件事情對於文生圖大模型還挺難的,RPG輕鬆戰勝對手。
最後一項是還原提示中的複雜關係:
#此外,也可以將區域擴散擴展為分層格式,將特定子區域劃分為較小的子區域。
如下圖所示,當增加區域分割的層次結構時,RPG可以在文字到影像的生成方面實現顯著的改進。這為處理複雜的生成任務提供了一個新的視角,使我們有可能產生任意組成的影像。
以上是文生圖新SOTA! Pika北大斯坦福聯合推出RPG,多模態協助解決文生圖兩大難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!