用GPT-3.5生成數據集！北大天工等團隊影像編輯新SOTA，可精準模擬物理世界場景-人工智慧-PHP中文網

用GPT-3.5生成數據集！北大天工等團隊影像編輯新SOTA，可精準模擬物理世界場景

WBOY

發布： 2024-06-02 17:18:08

原創

862 人瀏覽過

高品質影像編輯的方法有很多，但都很難準確地表達出真實的物理世界。

那麼，Edit the World試試。

用GPT-3.5生成數據集！北大天工等團隊影像編輯新SOTA，可精準模擬物理世界場景圖片

北京大學、Tiamat AI、天工AI、Mila實驗室提出了EditWorld，他們引入了一種新的編輯任務，即世界指令（world-instructed）圖像編輯。它定義和分類是基於各種世界場景的指令。

用GPT-3.5生成數據集！北大天工等團隊影像編輯新SOTA，可精準模擬物理世界場景圖片

在一組預訓練模型，例如GPT-3.5、Video-LLava 和SDXL的支援下，建立了一個帶有世界指令的多模態資料集。

在該資料集訓練了一個基於擴散的圖像編輯模型EditWorld，結果在其新任務中的表現明顯優於現有的編輯方法，實現了SOTA。

圖像編輯新SOTA

現有的方法透過多種途徑實現高品質的圖像編輯，包括但不限於文字控制、拖曳操作以及inpainting。其中，利用instruction進行編輯的方法由於使用方便受到廣泛的關注。

儘管圖片編輯方法能夠產生高品質的結果，但它們在處理傳達物理世界中真實視覺動態的世界動態方面仍然存在困難。

如圖1所示，無論是InstructPix2pix或MagicBrush都無法產生合理的編輯結果。

用GPT-3.5生成數據集！北大天工等團隊影像編輯新SOTA，可精準模擬物理世界場景圖片

為了解決這個問題，團隊引入了一項新的任務，稱為world-instructed image editing，使影像編輯能夠反映真實物理世界和虛擬媒體中的「世界動態」。

具體來說，他們定義並分類了各種世界動態指令，並基於這些指令創建了一個新的多模態訓練資料集，該資料集包含大量的輸入-指令-輸出三元組。

最後，團隊使用精心製作的資料集訓練了一個文字引導的擴散模型，並提出了一種零樣本圖像操作策略，以實現world-instructed image editing。

根據現實世界以及虛擬媒體中的任務場景，將world-instructed image editing分為7種認為類別，並對每個類別進行了定義與介紹，同時提供了一個資料範例。

用GPT-3.5生成數據集！北大天工等團隊影像編輯新SOTA，可精準模擬物理世界場景圖片

隨後團隊設計了文字到圖片生成以及視訊分鏡提取兩個分支來獲取資料集。

文字產生圖片分支是為了豐富資料場景的豐富性，在該分支下，團隊首先利用GPT生成文字四元組（包括input圖片描述、instruction、output圖片描述以及關鍵字），接著利用input以及output描述產生對應文字的圖片，利用關鍵字對應的attention map對編輯位置進行定位獲取編輯mask，同時為了確保前後兩張圖關鍵特徵的一致性，團隊引入了image prompt adaption的方法IP-Adapter，最後團隊使用IP-Adapter以及ControlNet，結合output image的canny map以及input image的image prompt feature，利用Image Inpainting對output image進行調整，從而獲得比較有效的編輯資料。

用GPT-3.5生成數據集！北大天工等團隊影像編輯新SOTA，可精準模擬物理世界場景圖片

利用文字產生圖片分支得到場景豐富的數據後，為了能向資料集中添加真實數據，團隊從影片中提取高質量的關鍵影格作為編輯資料。具體來說，團隊從視訊分鏡中提取相關性強且結構差異大兩幀作為起始與末尾幀，並切分出一段新的分鏡，利用多模態大模型對這段分鏡的變化進行描述，最後團隊以起始與末尾幀作為input image以及output image，以得到的描述作為instruction，這樣就獲得了所需的編輯資料。

再進一步，團隊利用人工對產生資料進行recheck，進而進一步提升資料品質。

團隊利用資料集對InstructPix2Pix模型進行finetune，同時為了保護非編輯區域實作更精確的編輯，團隊提出了post-edit策略。

用GPT-3.5生成數據集！北大天工等團隊影像編輯新SOTA，可精準模擬物理世界場景圖片