牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24)
寫在前面
專案連結:https://nianticlabs.github.io/mickey/
給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。
本文提出了MicKey,這是一個關鍵點匹配流程,能夠足夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對姿態。訓練過程中也不需要深度測試,也不需要場景重建或影像重疊資訊。 MicKey僅透過影像對及其相對姿態進行監督。 MicKey在無需地圖的重新定位基準測試中取得了最先進的性能,同時所需的監督少於其他競爭方法。
「Metric Keypoints(MicKey)是一個特徵檢測流程,解決了兩個問題。首先,MicKey回歸相機空間中的關鍵點位置,這允許透過描述符配對建立度量量對應關係。進行監督。 ,因此,透過SFM獲得的資訊(如影像重疊)是不需要的。
在無需地圖的重新定位基準測試中,MicKey名稱前茅,超越了最近最先進的方法。 MicKey提供了可靠的尺度度量姿態估計,即使在由特定針對稀疏特徵匹配的深度預測所支持的極端視角變化下也是如此。這種精度支援的極端視角變化下的變化下的變形匹配,使MicKey成為支援由特定針對稀疏特徵匹配的深度預測所支援的深度估計匹配所必需的深度估計的理想選擇。
主要貢獻如下:
MicKey是一個神經網絡,它可以從單張圖片中預測關鍵點,並對它們進行描述。這種描述符可以允許在圖像之間估計度量相對姿態。
這種訓練策略只需要相對姿態監控即可,無需深度測量,也不需要關於影像對重疊的知識。
MicKey介紹
MicKey預測相機空間中關鍵點的三維座標。網路還預測關鍵點的選擇機率(關鍵點分佈)和描述符,這些描述符引導匹配的機率(匹配分佈)。將這兩種分佈結合起來,得到了在中兩個關鍵點成為對應點的機率,並優化網絡,使得對應點更有可能出現。在一個可微分的RANSAC迴圈中,產生多個相對姿態假設,並計算它們相對於真實變換的損失。透過REINFORCE生成梯度來訓練對應機率。由於我們的姿態求解器和損失函數是可微分的,反向傳播也為訓練三維關鍵點座標提供了直接訊號。
1)度量pose監督的學習
給定兩張圖像,計算它們的度量相對姿態,以及關鍵點得分、匹配機率和姿態置信度(以軟內點計數形式)。我們的目標是以端到端的方式訓練所有相對姿態估計模組。在訓練過程中,我們假設訓練資料為,其中是真實變換,K/K'是相機內參。整個系統的示意圖如圖2所示。
為了學習三維關鍵點的座標、置信度和描述符,我們需要係統是完全可微分的。然而,由於pipeline中的一些元素不是可微分的,例如關鍵點採樣或內點計數,重新定義了相對姿態估計管道為機率性的。這意味著我們將網路的輸出視為潛在匹配的機率,在訓練過程中,網路優化其輸出以產生機率,使得正確的匹配更有可能被選中。
2)網路結構
MicKey遵循具有共享編碼器的多頭網路架構,該編碼器可推斷3D度量關鍵點以及來自輸入圖像的描述符,如圖3所示。
編碼器。採用預先訓練的DINOv2模型作為特徵提取器,並在不進行進一步訓練或微調的情況下直接使用其特徵。 DINOv2將輸入影像分割為大小為14×14的區塊,並為每個區塊提供一個特徵向量。最終的特徵圖F具有(1024, w, h)的分辨率,其中w = W/14,h = H/14。
關鍵點Head。這裡定義了四個並行Head,它們處理特徵圖F併計算xy偏移量(U)、深度(Z)、置信度(C)和描述符(D)映射;其中映射的每個條目對應於輸入影像中的一個14×14的block。 MicKey具有一個罕見的特性,即預測關鍵點作為稀疏規則網格的相對偏移量。獲得絕對2D座標如下:
實驗對比
在無地圖資料集上的相對姿態評估。報告了在90像素閾值下的VCRE指標的曲線下面積(AUC)和精度(Prec.)值,MicKey的兩個版本都獲得了最高結果。此外,還報告了中位數誤差,雖然MicKey在VCRE誤差方面獲得了最低值,但其他方法,例如RoMa,提供了更低的姿態誤差。為了計算中位數誤差,基準僅使用每種方法產生的有效姿態,因此,我們報告了估計的總姿勢數。最後,報告了配對時間,並發現MicKey與LoFTR和LighGlue相當,同時顯著減少了RoMa的時間,RoMa是VCRE指標最接近MicKey的競爭對手。匹配方法使用DPT 來恢復尺度。
MicKey產生的對應點、分數和深度圖的範例。 MicKey即使在大規模變化或寬基線的情況下也能找到有效的對應點。請注意,由於我們的特徵編碼器,深度圖的解析度比輸入影像小14倍。我們遵循DPT 中使用的深度圖視覺化方法,其中較亮的顏色表示較近的距離。
在ScanNet資料集上的相對姿態評估。所有特徵匹配方法都與PlaneRCNN 結合使用,以恢復度量尺度。我們標示了每種方法的訓練訊號:深度(D)、重疊分數(O)和姿態(P)。
以上是牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undress AI Tool
免費脫衣圖片

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

第一次打開PyCharm時,應先創建新項目並選擇虛擬環境,然後熟悉編輯器區、工具欄、導航欄和狀態欄。設置Darcula主題和Consolas字體,利用智能提示和調試工具提高效率,並學習Git集成。

社保號驗證在PHP中通過正則表達式和簡單邏輯實現。 1)使用正則表達式清理輸入,去除非數字字符。 2)檢查字符串長度是否為18位。 3)計算並驗證校驗位,確保與輸入的最後一位匹配。

有效使用圖形化工具對比Git版本差異的步驟包括:1.打開GitKraken並加載倉庫,2.選擇要對比的版本,3.查看差異,4.深入分析。圖形化工具如GitKraken提供了直觀的界面和豐富的功能,幫助開發者更深入地理解代碼的演變過程。

gitstatus命令用於顯示工作目錄和暫存區的狀態。 1.它會檢查當前分支,2.比較工作目錄和暫存區,3.比較暫存區和最後一次提交,4.檢查未跟踪的文件,幫助開發者了解倉庫狀態並確保提交前無遺漏。

要開發一個完整的PythonWeb應用程序,應遵循以下步驟:1.選擇合適的框架,如Django或Flask。 2.集成數據庫,使用ORM如SQLAlchemy。 3.設計前端,使用Vue或React。 4.進行測試,使用pytest或unittest。 5.部署應用,使用Docker和平台如Heroku或AWS。通過這些步驟,可以構建出功能強大且高效的Web應用。

在PHP中驗證IMEISV字符串需要以下步驟:1.使用正則表達式驗證16位數字格式。 2.通過Luhn算法校驗IMEI部分的有效性。 3.檢查軟件版本號的有效性。完整的驗證過程包括格式驗證、Luhn校驗和軟件版本號檢查,以確保IMEISV的有效性。

在遠程倉庫上創建標籤使用gitpushorigin,刪除標籤使用gitpushorigin--delete。具體步驟包括:1.創建本地標籤:gittagv1.0。2.推送到遠程:gitpushoriginv1.0。3.刪除本地標籤:gittag-dv1.0。4.刪除遠程標籤:gitpushorigin--deletev1.0。

VSCode解決多語言項目編碼和亂碼問題的方法包括:1.確保文件以正確編碼保存,使用“重新檢測編碼”功能;2.設置文件編碼為UTF-8並自動檢測編碼;3.控制是否添加BOM;4.使用“EncodingConverter”插件轉換編碼;5.利用多根工作區功能為不同子項目設置編碼;6.優化性能,忽略不必要的文件監控。通過這些步驟,可以有效處理多語言項目的編碼問題。
