Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字-人工智慧-PHP中文網

現在，已是2022年底。

深度學習模型在生成影像上的表現，已經如此出色。很顯然，它在未來會給我們更多的驚喜。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

十年來，我們是如何走到今天這一步的？

在下面的時間軸裡，我們會追溯一些里程碑式的時刻，也就是那些影響了AI圖像合成的論文、架構、模型、資料集、實驗登場的時候。

一切，都要從十年前的夏天說起。

開端（2012-2015）

深度神經網路問世之後，人們意識到：它將徹底改變影像分類。

同時，研究人員開始探索相反的方向，如果使用一些對分類非常有效的技術（例如卷積層）來製作圖像，會發生什麼？

這就是「人工智慧之夏」誕生的伊始。

2012 年 12 月

一切發端於此。

這一年，論文《深度卷積神經網路的ImageNet分類》橫空出世。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

論文作者之一，就是「AI三巨頭」之一的Hinton。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

它首次將深度卷積神經網路 (CNN)、GPU和龐大的網路來源資料集（ImageNet）結合在一起。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

2014 年12 月

Ian Goodfellow等AI巨佬發表了史詩性論文鉅作《生成式對抗網絡》。

GAN是第一個致力於影像合成而非分析的現代神經網路架構（「現代」的定義即2012年後）。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

它引入了一種基於賽局理論的獨特學習方法，由兩個子網路「生成器」和「鑑別器」進行競爭。

最終，只有「生成器」被保留在系統之外，並用於影像合成。

Hello World！來自Goodfellow等人2014年論文的GAN生成人臉樣本。該模型是在Toronto Faces資料集上訓練的，該資料集已從網路上刪除

#2015 年11 月

#具有重大意義的論文《使用深度卷積生成對抗網路進行無監督代表學習》發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

在這篇論文中，作者描述了第一個實際可用的GAN 架構 (DCGAN)。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

這篇論文也首次提出了潛在空間操弄的問題──概念是否映射到潛在空間方向？

GAN的五年（2015-2020）

#這五年間，GAN被應用於各種影像處理任務，例如風格轉換、修復、去噪和超解析度。

期間，GAN架構的論文開始爆炸式井噴。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

#專案網址：https://github.com/nightrome/really-awesome-gan

同時，GAN的藝術實驗開始興起，Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現。

第一個「AI 藝術」醜聞發生在2018年。三位法國學生使用「借來」的程式碼產生一副AI肖像，這副肖像成為第一幅在佳士得被拍賣的AI畫像。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

同時，transformer架構徹底改變了NLP。

在不久的將來，這件事會對影像合成產生重大影響。

2017 年 6 月

《Attention Is All You Need》論文發布。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》裡，也有詳實的解釋。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

自此，Transformer架構（以BERT等預訓練模型的形式）徹底改變了自然語言處理 (NLP) 領域。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

2018 年7 月

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

《概念性標註：用於自動圖像字幕的清理、上位化、圖像替代文字資料集》論文發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

這個和其他多模態資料集對於 CLIP 和 DALL-E 等模型將變得極為重要。

2018-20年

#NVIDIA的研究人員對GAN 架構進行了一系列徹底改進。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

在《使用有限資料訓練生成對抗網路》這篇論文中，介紹了最新的StyleGAN2-ada。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

GAN 產生的影像第一次變得與自然影像無法區分，至少對於像Flickr-Faces-HQ (FFHQ)這樣高度最佳化的資料集來說是這樣。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是該地區AI藝術的典型代表，其中生成模型的非寫實性是藝術探索的重點

2020 年5 月

##論文《語言模型是小樣本學習者》發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

OpenAI的LLM Generative Pre-trained Transformer 3（GPT-3）展示了變壓器架構的強大功能。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

2020 年12 月

論文《用於高解析度影像合成的Taming transformers》發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

ViT表明，Transformer架構可用於映像。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

本文介紹的方法VQGAN在基準測試中產生了SOTA結果。

2010年代後期的GAN架構的品質主要根據對齊的臉部影像進行評估，對於更多異質資料集的效果很有限。

因此，在學術/工業和藝術實驗中，人臉仍然是一個重要的參考點。

Transformer的時代（2020-2022）

#Transformer架構的出現，徹底改寫了影像合成的歷史。

從此，影像合成領域開始拋下GAN。

「多模態」深度學習整合了NLP和電腦視覺的技術，「即時工程」取代了模型訓練和調整，成為影像合成的藝術方法。

《從自然語言監督中學習可遷移視覺模型》這篇論文中，提出了CLIP 架構。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

可以說，目前的影像合成熱潮，是由CLIP首次引入的多模態功能所推動的。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

論文中的CLIP架構

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

########################### 2021 年1 月#####################

論文《零樣本文字到圖像生成》發表（另請參閱OpenAI 的部落格文章），其中介紹了即將轟動全世界的DALL-E的第一個版本。

這個版本透過將文字和圖像（由VAE壓縮為「TOKEN」）組合在單一資料流中來運作。

該模型只是「continues」the“sentence”。

資料（250M 圖片）包括來自維基百科的文字圖像對、概念說明和YFCM100M的篩選子集。

CLIP為影像合成的「多模態」方法奠定了基礎。

2021 年1 月

論文《從自然語言監督學習可遷移視覺模型》發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

論文中介紹了CLIP，結合了ViT和普通Transformer的多模態模型。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

CLIP會學習圖像和標題的「共享潛在空間」，因此可以標記圖像。

模型在論文附錄A.1中列出的大量資料集上進行訓練。

2021 年6 月

#論文《擴散模型的發佈在影像合成方面擊敗了GAN》發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

擴散模型引入了一種不同於GAN方法的影像合成方法。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

研究者透過從人工添加的雜訊重建影像來學習。

它們與變分自動編碼器 (VAE) 相關。

2021 年 7 月

DALL-E mini發布。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

它是DALL-E的複製品（體積更小，對架構和資料的調整很少）。

資料包括Conceptual 12M、Conceptual Captions以及 OpenAI 用於原始 DALL-E 模型的YFCM100M相同過濾子集。

因為沒有任何內容過濾器或API 限制，DALL-E mini為創意探索提供了巨大的潛力，並導致推特上「怪異的DALL-E」圖像爆炸式增長。

2021-2022

Katherine Crowson發布了一系列CoLab筆記，探索製作CLIP 引導生成模型的方法。

例如512x512CLIP-guided diffusion和VQGAN-CLIP（Open domain image generation and editing with natural language guidance，僅在2022年作為預印本發布但VQGAN一發布就出現了公共實驗）。

就像在早期的GAN時代一樣，藝術家和開發者以非常有限的手段對現有架構進行重大改進，然後由公司簡化，最後由wombo.ai等「新創公司」商業化。

2022 年4 月

#論文《具有CLIP 潛能的分層文字條件圖像生成》發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

該論文介紹了DALL-E 2。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

#它建立在僅幾週前發布的GLIDE論文（《 GLIDE ：使用文字引導擴散模型實現逼真圖像生成和編輯》的基礎上。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

同時，由於DALL-E 2 的訪問受限和有意限制，人們對DALL-E mini重新產生了興趣。

根據模型卡，數據包括“公開可用資源和我們許可的資源的組合”，以及根據論文的完整CLIP和DALL-E資料集。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

#「金髮女郎的人像照片，用數位單眼相機拍攝，中性背景，高解析度」，使用DALL-E 2 生成。基於Transformer 的生成模型與後來的GAN 架構（如StyleGAN 2）的真實感相匹配，但允許創建廣泛的各種主題和圖案

2022 年5-6 月

#5月，論文《具有深度語言理解的真實感文本到圖像擴散模型”發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

#6月，論文《用於內容豐富的文本到圖像生成的縮放自回歸模型》發表。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

這兩篇論文中，介紹了Imagegen和Parti。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

以及Google對DALL-E 2的回答。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

# #「你知道我今天為什麼阻止你嗎？」由DALL-E 2生成，「prompt engineering」從此成為藝術圖像合成的主要方法

AI Photoshop（2022年至今）

雖然DALL-E 2為圖像模型設定了新標準，但它迅速商業化，也意味著在使用上從一開始就受到限制。

#用戶仍繼續嘗試DALL-E mini等較小的模型。

緊接著，隨著石破天驚的Stable Diffusion的發布，所有這一切都發生了變化。

可以說，Stable Diffusion標誌著影像合成「Photoshop時代」的開始。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

「有四串葡萄的靜物，試圖創造出像古代畫家Zeuxis Juan El Labrador Fernandez，1636 年，馬德里普拉多的葡萄一樣栩栩如生的葡萄」，Stable Diffusion產生的六種變化

2022 年8 月

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

Stability.ai發表Stable Diffusion模型。

在論文《具有潛在擴散模型的高解析度影像合成》中，Stability.ai隆重推出了Stable Diffusion。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

這個模型可以實現與DALL-E 2同等的照片級真實感。

Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

除了DALL-E 2，模型幾乎立即向公眾開放，並且可以在CoLab和Huggingface平台上運行。

2022 年8 月

#Google發表論文《DreamBooth：為主題驅動生成微調文字到影像擴散模型》。 Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字

###DreamBooth提供了對擴散模型越來越細粒度的控制。 #####################然而，即使沒有此類額外的技術幹預，使用像Photoshop 這樣的生成模型也變得可行，從草圖開始，逐層新增生成的修改。 ##################2022 年10 月###########################最大的圖庫公司之一Shutterstock宣布與OpenAI 合作提供/許可生成圖像，可以預計，圖庫市場將受到Stable Diffusion等生成模型的嚴重影響。 ######

以上是Hinton上榜！盤點AI圖像合成10年史，那些值得被記住的論文和名字的詳細內容。更多資訊請關注PHP中文網其他相關文章！