CMU朱俊彥團隊研發出一款自動匹配排名系統，用於評估各種AI生成模型的優劣-人工智慧-PHP中文網

本文轉自雷鋒網，如需轉載請至雷鋒網官網申請授權。

最近的生成式 AI 可謂十分火爆，新出的預訓練影像生成模型多到讓人目不暇給。無論是肖像、風景，還是卡通漫畫、特定藝術家風格元素等等，每個模型都有它擅長生成的內容。

這麼多模型裡面，要如何快速找到一個能滿足自己創作欲的最佳模型呢？

近日，卡內基美隆大學的助理教授朱俊彥等人首次提出了基於內容的模型搜尋演算法，讓你能夠一鍵搜尋出最匹配的深度影像生成模型。

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

#論文網址：https://arxiv.org/pdf/2210.03116.pdf

在團隊基於這套模型搜尋算開發的線上模型共享和搜尋平台Modelverse 上，你可以輸入文字、圖像、草圖和給定模型，來搜尋出最匹配或相似的相關模型。

Modelverse 平台位址：https://modelverse.cs.cmu.edu/

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

圖註：輸入文字（如「非洲動物」）、圖像（如風景圖）、草圖（如一隻站立的貓的草圖）或一個給定模型，輸出排名靠前的相關模型（第二行、第三行）

例如，輸入文字“face”，得到結果如下：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

輸入一隻貓咪影像：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

#輸入一匹馬的草圖：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

#1基於內容的模型搜尋

和傳統的多媒體搜尋一樣，模型搜尋能夠幫助用戶找到最適合其特定需求的模型。但基於內容的模型搜尋任務有其特殊困難：

判斷模型是否可以產生特定圖像，這是一個比較難計算的問題，而且很多深度生成模型並沒有提供有效方法來估計密度，其本身也不支持評估跨模態相似性。而蒙特卡羅這種基於抽樣的方法又會讓模型搜尋過程變得非常緩慢。

為此，朱俊彥團隊提出了一個新的模型搜尋系統。

每個生成模型都會產生一個圖像分佈，所以作者將搜尋問題處理為最佳化，以最大化在給定模型的情況下產生與查詢匹配的機率。如下圖所示，系統由預緩存階段（a，b）和推理階段（c）組成。

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

圖註：模型搜尋方法概覽

給定一組模型，（a）首先為每個模型產生50K 樣本；(b) 然後將圖像編碼為圖像特徵併計算每個模型的一階和二階特徵統計。統計資料快取在系統中以提高效率；(c) 在推理階段，支援不同模態的查詢，包括圖像、草圖、文字描述、另一個生成模型或這些查詢類型的組合。作者在這裡引入近似值，查詢被編碼為特徵向量，透過評估查詢特徵與每個模型統計資料之間的相似性，來檢索具有最佳相似性度量的模型。

2模型搜尋效果

作者對演算法進行評估，對133 個深度生成模型（包括GAN、擴散模型和自回歸模型）進行了消融實驗分析。與蒙特卡羅基線相比，此方法可實現更有效率的搜索，速度在0.08 毫秒內，提升 5 倍，同時還能保持高精度。

透過對比模型檢索結果，我們也可以大致了解針對不同查詢輸入，哪些模型能產生更高品質的影像。例如下圖展示了模型檢索的結果比較。

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

圖註：模型檢索結果範例

##最上面一行是圖像查詢，輸入靜物畫，檢索相關藝術風格的模型，得到排名第一的StyleGAN2 模型和排名最後的Vision-aided GAN 模型。中間行是草圖查詢，輸入馬和教堂的草圖，得到 ADM、ProGAN 等模型。最下面一行是文字查詢，輸入“戴眼鏡的人”和“說話的鳥”，分別檢索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者也發現，不同網路特徵空間的模型效能有差異。如下圖所示，在輸入影像查詢時，結果顯示三個網路CLIP、DINO 和Inception 都具有相似的效能；而在輸入草圖查詢時，CLIP 效果明顯較好，而DINO 和Inception 則較不適合給定查詢，它們在藝術風格的模型上表現更好。

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统