社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > Stable Diffusion 3技術報告出爐：揭露Sora同款架構細節

Stable Diffusion 3技術報告出爐：揭露Sora同款架構細節

王林

發布： 2024-03-07 12:01:11

轉載

809 人瀏覽過

很快啊，「文生圖新王」Stable Diffusion 3的技術報告，這就來了。

全文共28頁，誠意滿滿。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

“老規矩”，宣傳海報（⬇️）直接用模型生成，再秀一把文字渲染能力：

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

所以，SD3這比DALL·E 3和Midjourney v6都要強的文字以及指令跟隨技能，究竟怎麼點亮的？

技術報告揭露：

全靠多模態擴散Transformer架構MMDiT。

透過對圖像和文字表示分別應用不同群組權重的方法，實現了比先前版本更強大的效能提升，這是成功的關鍵。

具體幾何，我們翻開報告來看。

微調DiT，提昇文字渲染能力

在發布SD3之初，官方就已經透露它的架構和Sora同源，屬於擴散型Transformer——DiT。

現在答案揭曉：

由於文生圖模型需要考慮文字和圖像兩種模式，Stability AI比DiT更近一步，提出了新架構MMDiT。

這裡的「MM」就是指「multimodal」。

和Stable Diffusion先前的版本一樣，官方用兩個預訓練模型來獲得合適和文字和圖像表示。

其中文字表示的編碼用三種不同的文字嵌入器（embedders）來搞定，包括兩個CLIP模型和一個T5模型。

圖像token的編碼則用一個改進的自動編碼器模型來完成。

由於文字和圖像的embedding在概念上完全不是一個東西，因此，SD3對這兩種模式使用了兩組獨立的權重。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

（有網友吐槽：這個架構圖好像要啟動「人類補完計畫」啊，嗯是的，有人就是「看到了《新世紀福音戰士》的資料才點進來這篇報告的」）

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

言歸正傳，如上圖所示，這相當於每種模態都有兩個獨立的transformer，但會將它們的序列連接起來進行注意力操作。

這樣，兩種表示都可以在自己的空間中工作，同時還能考慮到另一種。

最終，透過這種方法，資訊可以在圖像和文字token之間“流動”，在輸出時提高模型的整體理解能力和文字渲染能力。

並且正如先前的效果展示，這種架構還可以輕鬆擴展到視訊等多種模式。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

具體測試則顯示，MMDiT出於DiT卻勝於DiT：

它在訓練過程中的視覺保真度和文字對齊度都優於現有的文字到圖像backbone，例如UViT、DiT。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

重新加權流技術，不斷提升效能

在發布之初，除了擴散型Transformer架構，官方也透露SD3結合了flow matching。

什麼「流」？

如今天發布的論文標題所揭露，SD3採用的正是「Rectified Flow」（RF）。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

這是一個「極度簡化、一步產生」的擴散模型產生新方法，入選了ICLR2023。

它可以使模型的資料和雜訊在訓練期間以線性軌跡進行連接，產生更「直」的推理路徑，從而可以使用更少的步驟進行取樣。

基於RF，SD3在訓練過程中引入了一個全新的軌跡採樣。

它主打給軌蹟的中間部分更多權重，因為作者假設這些部分會完成更具挑戰性的預測任務。

透過多個資料集、指標和採樣器配置，與其他60個擴散軌跡方法（例如LDM、EDM和ADM）測試這一生成方法發現：

雖然以前的RF方法在少步採樣方案中表現出不錯的性能，但它們的相對性能隨著步數的增加而下降。

相較之下，SD3重新加權的RF變體可以持續提高效能。

模型能力還可以進一步提高

官方使用重新加權的RF方法和MMDiT架構對文本到圖像的生成進行了規模化研究（scaling study）。

訓練的模型範圍從15個具有4.5億參數的模組到38個具有80億參數的模組。

從中他們觀察到：隨著模型大小和訓練步驟的增加，驗證損失呈現出平滑的下降趨勢，即模型透過不斷學習適應了更為複雜的資料。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

為了測試這是否在模型輸出上轉化為更有意義的改進，官方還評估了自動圖像對齊指標（GenEval）以及人類偏好評分（ELO）。

結果是：

兩者有很強的相關性。即驗證損失可以作為一個很有力的指標，預測整體模型表現。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

此外，由於這裡的擴展趨勢沒有出現飽和跡象（即隨著模型規模的增加，性能仍在提升，沒有達到極限），官方很樂觀地表示：

未來的SD3效能還能持續提升。

最後，技術報告也提到了文字編碼器的問題：

透過移除用於推理的47億參數、記憶體密集型T5文字編碼器，SD3的記憶體需求可以顯著降低，但同時，效能損失很小（win rate從50%降到46%）。

不過，為了文字渲染能力，官方還是建議不要去掉T5，因為沒有它，文字表示的win rate將跌至38%。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

那麼總結一下就是說：SD3的3個文字編碼器中，T5在產生帶文字圖像（以及高度詳細的場景描述圖）時貢獻是最大的。

網友：開源承諾如期兌現，感恩

SD3報告一出，不少網友就表示：

Stability AI對開源的承諾如期而至很是欣慰，希望他們能夠繼續維持並長久運作下去。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

還有人就差報OpenAI大名了：

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

更值得欣慰的是，有人在評論區提到：

SD3模型的權重全部都可以下載，目前規劃的是8億參數、20億參數和80億參數。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

速度怎麼樣？

咳咳，技術報告有提：

80億的SD3在24GB的RTX 4090上需要34s才能產生1024*1024的圖像（採樣步驟50個）——不過這只是早期未經優化的初步推理測試結果。

報告全文：https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable Diffusion 3 Paper.pdf 。
參考連結：
#[1]https://stability.ai/news/stable-diffusion- 3-research-paper。
[2]https://news.ycombinator.com/item?id=39599958。

以上是Stable Diffusion 3技術報告出爐：揭露Sora同款架構細節的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

sd3 mmdit 文生圖模型

來源：51cto.com

上一篇：畫像標籤體系建構與應用實踐下一篇：開環端對端自動駕駛中自車狀態是你所需要的一切嗎？

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

創造未來：零基礎的 Java 編程

2024-10-13 13:32:21
你並不孤單：在社群的支持下掌握 Python

2024-10-12 11:58:51
從新手到程式設計師：利用 Python 程式設計的力量

2024-10-11 20:06:51
像程式設計師一樣思考：學習 Java 基礎知識

2024-10-11 18:59:31
Java 變得簡單：程式設計能力的初學者指南

2024-10-11 18:30:51
使用 PHP 建立部落格：一個適合初學者的項目

2024-10-11 15:51:51
講系統語言：學習 C，一次一行

2024-10-11 15:42:10
C 語言的資料結構與演算法：適合初學者的方法

2024-10-11 14:41:20
不流淚編碼：輕鬆學習 C

2024-10-11 14:08:31
使用 Java 進行資料分析：資訊處理初學者指南

2024-10-11 13:42:21

最新問題

function_exists()無法判定自訂函數 function test() { return true; } if (function_exists('TEST')) { ech...

來自於 2024-04-29 11:01:01

0

3

2187

google 瀏覽器手機版顯示的怎麼實現老師您好，google 瀏覽器怎麼變成手機版樣式的？

來自於 2024-04-23 00:22:19

0

11

2334

子窗口操作父窗口，輸出沒反應前兩句可執行，最後一句沒辦法應

來自於 2024-04-19 15:37:47

0

1

1961

父視窗沒有輸出 document.onclick = function(){ window.opener.document.write('我是子視窗的輸出'); ...

來自於 2024-04-18 23:52:34

0

1

1846

關於CSS心智圖的課件在哪？課件

來自於 2024-04-16 10:10:18

0

0

1899

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422763
php入門教程之一週學會PHP

4267826
JAVA 初級入門影片教學

2531863
小甲魚零基礎入門學習Python影片教學

507158
PHP 零基礎入門教學

862257

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板