文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首頁> 科技週邊> 人工智慧> 主體

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

WBOY

發布： 2024-02-19 09:06:14

轉載

439 人瀏覽過

近日，北大、史丹佛、以及爆火的Pika Labs聯合發表了一項研究，將大模型文生圖的能力提升到了新的高度。

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

論文網址：https://arxiv.org/pdf/2401.11708.pdf

程式碼網址：https://github.com/YangLing0818/RPG-DiffusionMaster

論文作者提出了一個創新的方法，利用多模態大語言模型（MLLM）的推理能力，來改進文字到圖像生成/編輯的框架。

換言之，此方法旨在提昇文生成模型在處理包含多個屬性、關係和物件的複雜文字提示時的表現表現。

話不多說，直接上圖：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

#A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style.

一個穿著橙色連身裙的雙馬尾女孩坐在沙發上，大窗戶旁是凌亂的辦公桌，右上方擺放著一個活潑的水族館，房間風格寫實主義。

面對關係複雜的多個對象，模型所給予的整個畫面的結構、人與物品的關係都非常合理，使觀者眼前一亮。

而對於同樣的提示，我們來看看目前最先進的SDXL和DALL·E 3的表現：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

再看一下新框架面對多個物件綁定多個屬性時的表現：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily.##papp
從左到右，一個穿著白色襯衫、綁著金髮馬尾辮的歐洲女孩，一個穿著印著小鳥的藍色襯衫、棕色捲髮的非洲女孩，一個穿著西裝、黑色短髮的亞洲年輕人正開心地在校園裡散步。

研究人員將這個框架命名為RPG（Recaption，Plan and Generate），採用MLLM作為全域規劃器，將複雜影像的產生過程分解為子區域內多個更簡單的生成任務。

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

文中提出了互補的區域擴散，實現區域組合生成，還將文字引導的圖像生成和編輯以閉環方式集成到了RPG框架中，從而增強了泛化能力。

實驗表明，本文提出的RPG框架優於目前最先進的文字圖像擴散模型，包括DALL·E 3和SDXL，尤其是在多類別物件合成以及文字圖像語義對齊方面。

值得注意的是，RPG框架可以廣泛地相容於各種MLLM架構（如MiniGPT-4）和擴散骨幹網路（如ControlNet）。

RPG

目前的文生圖模型主要有兩個問題：1. 基於佈局或基於注意力的方法只能提供粗略的空間引導，而且難以處理重疊的物件；2. 基於回饋的方法需要收集高品質的回饋數據，並產生額外的訓練成本。

為了解決這些問題，研究者提出了RPG的三個核心策略，如下圖所示：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

給定一個包含多個實體和關係的複雜文字提示，首先利用MLLM將其分解為基本提示和高度描述性的子提示；隨後，利用多模態模型的CoT規劃將影像空間劃分為互補的子區域；最後，引入互補區域擴散來獨立產生每個子區域的影像，並在每個取樣步驟中進行聚合。

多模態重新調整

將文字提示轉換為高度描述性的提示，提供資訊增強的提示理解和擴散模型中的語義對齊。

使用MLLM來辨識使用者提示y中的關鍵字詞，以獲得其中的子項：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

# #使用LLM將文字提示符分解為不同的子提示符，並進行更詳細的重新描述：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

透過這種方式，可以為每個子提示產生更密集的細粒度細節，以有效地提高生成影像的保真度，並減少提示和影像之間的語義差異。

思想鏈規劃

#將影像空間分割成互補的子區域，並為每個子區域分配不同的子提示，同時將生成任務分解為多個更簡單的子任務。

具體來說，將影像空間H×W分割為若干互補區域，並將每個增強子提示符號指派給特定區域R：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

#利用MLLM強大的思維鏈推理能力，進行有效的區域劃分。透過分析重新獲得的中間結果，就能為後續的影像合成產生詳細的原理和精確的說明。

補充區域擴散

在每個矩形子區域內，獨立產生由子提示引導的內容，隨後調整大小和連接的方式，在空間上合併這些子區域。

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

這種方法有效地解決了大模型難以處理重疊物件的問題。此外，論文擴展了這個框架，以適應編輯任務，採用基於輪廓的區域擴散，從而對需要修改的不一致區域精確操作。

文字引導的圖像編輯

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

#如上圖所示。在複述階段，RPG採用MLLM作為字幕來複述來源圖像，並利用其強大的推理能力來識別圖像和目標提示之間的細粒度語義差異，直接分析輸入圖像如何與目標提示對齊。

使用MLLM（GPT-4、Gemini Pro等）來檢查輸入與目標之間關於數值準確性、屬性綁定和物件關係的差異。由此產生的多模態理解回饋將交付給MLLM，用於推理編輯計畫。

我們來看看生成效果在以上三個方面的表現，首先是屬性綁定，對比SDXL、DALL·E 3和LMD ：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

我們可以看到在所有三項測試中，只有RPG最準確地反映了提示所描述的內容。

接著是數值準確性，顯示順序同上（SDXL、DALL·E 3、LMD 、RPG）：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

－沒想到要數這件事情對於文生圖大模型還挺難的，RPG輕鬆戰勝對手。

最後一項是還原提示中的複雜關係：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

#此外，也可以將區域擴散擴展為分層格式，將特定子區域劃分為較小的子區域。

如下圖所示，當增加區域分割的層次結構時，RPG可以在文字到影像的生成方面實現顯著的改進。這為處理複雜的生成任務提供了一個新的視角，使我們有可能產生任意組成的影像。

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

###

以上是文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

模型開源

來源：51cto.com

上一篇：CVPR 2024 Workshop | AIGC品質評價挑戰賽啟動！下一篇：以自監督方式去除螢光影像中的噪聲，清華團隊開發空間冗餘去噪Transformer方法

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

最後

2024-08-27 20:00:37
程式碼挑戰 - 探索電話服務

2024-08-27 20:00:32
使用 Docker 容器映像的 Lambda 函數 - 使用 Java 開發和部署 Lambda 函數的部分流程（執行時間

2024-08-27 20:00:16
《光遇》8.27每日任務攻略

2024-08-27 19:33:37
《黒神話悟空》隱藏結局觸發條件

2024-08-27 19:33:19
《黒神話悟空》藏風獸面怎麼樣

2024-08-27 19:33:06
《黒神話悟空》魔將神歸成就完成方法

2024-08-27 19:32:37
《鹹魚之王》中秋活動玩法

2024-08-27 19:32:24
《黒神話悟空》第四回黃花觀金光苑玩法

2024-08-27 19:32:22
《黒神話悟空》青銅猴面怎麼樣

2024-08-27 19:32:09

最新問題

Vue專案中未定義模組我剛剛通過運行npmini tvue@latest創建了一個新的Vue應用程序，如官方文件中指定的那樣。然後我嘗試按照Vue和Vite網站上的指南將Tailwind添加到我的應用程...

來自於 2023-11-17 12:38:53

0

2

394

tp6 查詢器如何最佳化 tp6 model模型關聯多個資料表查詢時，使用查詢器會很慢，要怎麼優化，有沒有最佳化的方法呀！求助！！！！！

來自於 2023-11-17 08:50:36

0

0

84

如何根據角色為每個使用者定義一組權限的Laravel Spatie權限設定方法？我有4種類型的使用者使用我的系統：1.超級管理員2.超級管理員團隊、3.管理員和4。管理團隊成員，因為我使用spatie來處理角色和權限，所以我有一組對於所有類型的使用者來說都很常...

來自於 2023-11-14 12:58:58

0

1

292

WordPress 6.0 (add_editor_style) 不會在古騰堡編輯器中載入 style.css 我正在學習UdemyWordPress課程來建立自訂WordPress區塊主題。我成功在function.php中註冊了區塊類型，並且可以在古騰堡編輯器中選擇我的區塊。教學建議使用...

來自於 2023-11-12 20:37:50

0

2

261

遇到PHPMailer未定義類型錯誤（嘗試使用Composer也無效）我不知道為什麼會收到此“PHPMailer未定義類型”錯誤。首先，我嘗試直接下載zip並從github複製程式碼，同樣的問題出現，然後我下載了我不想下載的composer，但下載後...

來自於 2023-11-12 17:35:06

0

1

180

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1396579
php入門教程之一週學會PHP

4209258
JAVA 初級入門影片教學

2362323
小甲魚零基礎入門學習Python影片教學

493934
PHP 零基礎入門教學

827444

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板

關於我們免責聲明 Sitemap: PHP中文網：公益線上PHP培訓，幫助PHP學習者快速成長！