CVPR 2023論文總結！ CV最熱領域頒給多模態、擴散模型-人工智慧-PHP中文網

一年一度的CVPR即將在6月18-22日加拿大溫哥華正式開幕。

每年，來自世界各地的成千上萬的CV研究人員和工程師聚集在一起參加頂會。這個久負盛名的會議可以追溯到1983年，它代表了電腦視覺發展的巔峰。

目前，CVPR的h5指數所有會議或出版品中排名第四，僅次於《自然》、《科學》和《新英格蘭醫學雜誌》。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

前段時間，CVPR公佈了論文接收結果。根據官網上統計數據，共接受論文9155篇，錄取2359篇，接受率為25.8%。

此外，也公佈了12篇獲獎候選論文。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

那麼，今年的CVPR有哪些亮點呢？從錄用論文中我們又能看到CV領域有哪些趨勢？

接下來一併揭曉。

CVPR一覽

新創公司Voxel51就所有被接收論文清單中進行了分析。

先來整體看一張論文標題的總圖，每個字的大小與資料集中出現的頻率成正比。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

簡單說明

- 2359篇論文被接收（9155份論文提交)

- 1724篇Arxiv論文

- 68份文件提交到其他地址

每篇論文的作者

- CVPR論文的平均作者約為5.4人

- 論文當中作者最多的是: “Why is the winner the best?”有125位作者

- 有13篇論文只有一個作者。

主要Arxiv分類

#在1724篇Arxiv論文中，有1545篇，或接近90%的論文將cs.CV列為主要類別。

cs.LG排名第二，有101篇。 eess.IV （26）和 cs.RO （16）也分得一杯羹。

CVPR 論文的其他類別包括: cs.HC，cs.CV，cs.AR，cs.DC，cs.NE，cs.SD，cs.CL，cs.IT ，cs.CR，cs.AI，cs.MM，cs.GR，eess.SP，eess.AS，math.OC，math.NT，physics.data-an和stat.ML。

「Meta」資料

- 「資料集」與「模型」這2個字共同出現在567篇摘要中。「資料集」在265篇論文摘要中單獨出現，而「模型」則單獨出現了613次。只有16.2%的 CVPR接收論文沒有包含這兩個字。

- 根據CVPR論文摘要，今年最受歡迎的資料集是ImageNet（105），COCO（94），KITTI（55）和CIFAR（36）。

- 28篇論文提出了一個新的「基準」。

縮寫詞比比皆是

#似乎沒有首字母縮寫就沒有機器學習項目。 2359篇論文中，1487篇的標題有多個大寫字母的縮寫或複合詞，佔63%。

這些首字母縮寫詞中有一些很容易記住，甚至可以脫口而出：

- CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal PoseCLAMP

- PATS: Patch Area Transportation with Subdivision for Local Feature Matching

- CIRCLE: Capture In Rich Contextual Environments

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

##幫助有些則複雜得多：

- SIEDOB: Semantic Image Editing by Disentangling Object and Background

- FJMP : Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction GraphsFJMP

##他們中的一些人似乎在首字母縮略詞構建上借鑒了別人的創意：##他們中的一些人似乎在首字母縮略詞構建上借鑒了別人的創意：

- SCOTCH and SODA: A Transformer Video Shadow Detection Framework（荷蘭流行潮牌Scotch & Soda）

- EXCALIBUR: Encouraging and Evaluating Embodied Exploration（Ex咖哩棒，笑）什麼最熱？

除了2023年的論文標題，我們抓取了2022年所有接受的論文標題。從這兩個清單中，我們計算了各種關鍵字的相對頻率，從讓大家對什麼是上升趨勢、什麼是下降趨勢有更深入的了解。

模型2023年，擴散模型（Diffusion models）佔據了主導地位。

。擴散模型

隨著Stable Diffusion和Midjourney等影像生成模型的走紅，擴散模型發展的火熱趨勢也就不足為奇了。

擴散模型在去雜訊、影像編輯和風格轉換方面也有應用。把所有這些加起來，到目前為止，它是所有類別中最大的贏家，比去年同期增長了573% 。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型輻射場

#神經輻射場（NERF）也越來越受歡迎，論文中使用單字“ radiance」增加了80% ，「NERF」增加了39% 。 NeRF已經從概念驗證轉向編輯、應用和訓練流程最佳化。

######Transformers################「Transformer」和「ViT」的使用率下降並不意味著Transformer模型過時，而是反映了這些模型在2022年的主導地位。 2021年，「Transformer」這個字只出現在37篇論文中。 2022年，這個數字飆升至201。 Transformer不會很快消失。 ###############CNN################CNN曾經是電腦視覺的寵兒，到了2023年，似乎失去了它們的優勢，使用率下降了68%。許多提到 CNN 的標題也提到了其他模型。例如，這些論文提到了CNN和Transformer：############- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono######### ####- Learned Image Compression with Mixed Transformer-CNN Architectures############任務############掩碼任務和掩碼圖像建模相結合，在CVPR中佔據了主導地位。 ############################################################################

傳統的判別任務，如檢測、分類和分割並沒有失寵，但是由於生成應用的一系列進步，它們在CV的份額正在縮小，包括“編輯”、“合成”以及“生成”的上升就證明這一點。

掩碼

#關鍵字「mask」比去年同期成長了263% ，在2023年被接收的論文中出現了92次，有時在一個標題中出現了2次。

- SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance SegmentationSIM

#- DynaMask: Dynamic Mask Selection for Instance SegmentationDynaMask#mentationDynaMask

##但大多數（64%）實際上指的是「掩碼」任務，包括8個「掩碼影像建模」和15個「掩碼自動編碼器」任務。此外，還有8篇出現「掩碼」。

同樣值得注意的是，3篇帶有單字「mask」的論文標題實際上指的是「無掩碼」任務。

零樣本vs小樣本

#隨著遷移學習、產生方法、提示和通用模型的興起，「零樣本」學習正在獲得關注。同時，「小樣本」學習比去年有所下降。然而，就原始數字而言，至少目前而言，「小樣本」（45）比「零樣本」（35）略有優勢。

模數

2023年，多模態與跨模態應用加速發展。

CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型

雖然傳統計算機視覺關鍵字如「圖像」和「視訊」的頻率相對保持不變，但「文字」/「語言」和「音訊」出現的頻率較高。

即使「多模態」這個詞本身沒有在論文標題中出現，也很難否認電腦視覺正在走向多模態的未來。

這在視覺語言任務中尤其明顯，正如「開放」、「提示」和「詞彙」的急劇上升所顯示的。

這種情況最極端的例子是「開放詞彙」這個複合詞，它在2022年只出現了3次，但在2023年出現了18次。

深入研究CVPR 2023論文標題中的關鍵字

點雲9

三維電腦視覺應用正在從以二維影像推斷3D資訊（「深度」和「立體」）轉向直接在3D點雲資料上進行工作的電腦視覺系統。

######CV標題的創造力#########如果不將ChatGPT納入其中，2023年任何與機器學習相關的全面報導都是不完整的。我們決定讓事情變得有趣，並使用ChatGPT來尋找CVPR 2023中最有創意的標題。 ############對於每一篇上傳到Arxiv的論文，我們抓取了摘要，並要求 ChatGPT （GPT-3.5 API）為相應的CVPR論文產生一個標題。 ############然後，我們將這些由ChatGPT產生的標題和實際的論文標題，使用OpenAI的text-embedding-ada-002模型產生嵌入向量，並計算ChatGPT產生的標題和作者產生的標題之間的餘弦相似度。 ############這可以告訴我們什麼？ ChatGPT越接近實際的論文標題，這個標題就越可預測。換句話說，ChatGPT的預測越「偏」，作者為論文命名的「創造性」就越強。 ######

嵌入和餘弦相似度為我們提供了一個有趣的，儘管遠非完美的，量化方法。

我們依照這個指標對論文進行了排序。話不多說，以下是最具創意的標題:

實際的標題：Tracking Every Thing in the Wild

預測的標題：Disentangling Classification from Tracking: Introducing TETA for Comprehensive Benchmarking of Multi-Category Multiple Object Tracking

實際的標題：Learning to Bootstrap for Combating Label Noise

預測的標題：Learnable Loss Objective for Joint Instance and Label Reweighting in Deep Neural Networks

實際的標題：Seeing a Rose in Five Thousand Ways

預測的標題：Learning Object Intrinsics from Single Internet Images for Superior Visual Rendering and Synthesis

實際的標題：Why is the winner the best?

####預測的標題：Analyzing Winning Strategies in International Benchmarking Competitions for Image Analysis: Insights from a Multi-Center Study of IEEE ISBI and MICCAI 2021#######

以上是CVPR 2023論文總結！ CV最熱領域頒給多模態、擴散模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！