Cadangan DepthFM: Model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens.
Mari kita baca karya ini bersama-sama~
Tajuk: DepthFM: Anggaran Kedalaman Monokular Pantas dengan Padanan Aliran
Pengarang: Ming Gui, Johannes S. Fischering, P. Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
Institusi: MCML
Pautan asal: https://arxiv.org/abs/2403.13788
Pautan kod: https://github.com/ CompVis -fm
Laman utama rasmi: https://depthfm.github.io/
adalah penting untuk banyak tugas dan aplikasi persiaran hiliran. Kaedah diskriminatif semasa untuk masalah ini dihadkan oleh artifak kabur, manakala kaedah generatif tercanggih mengalami kelajuan sampel latihan yang perlahan kerana sifat SDE mereka. Daripada bermula dengan hingar, kami mencari pemetaan terus daripada imej input kepada imej kedalaman. Kami melihat bahawa ini boleh dibina dengan cekap melalui pemadanan aliran, kerana trajektori lurusnya dalam ruang penyelesaian memberikan kecekapan dan kualiti yang tinggi. Kajian kami menunjukkan bahawa model resapan imej yang telah terlatih boleh digunakan sebagai pengetahuan sedia ada yang mencukupi untuk model padanan aliran yang mendalam. Pada penanda aras pemandangan semula jadi yang kompleks, pendekatan ringan kami menunjukkan prestasi tercanggih pada kos pengiraan yang sangat rendah walaupun dilatih hanya pada sejumlah kecil data sintetik.
DepthFM ialah model pemadanan aliran inferens pantas dengan keupayaan generalisasi tangkapan sifar yang kuat, yang boleh menggunakan pengetahuan sedia ada yang kukuh dan mudah digeneralisasikan kepada imej sebenar yang tidak diketahui. Selepas latihan mengenai data sintetik, model ini membuat generalisasi dengan baik kepada imej sebenar yang tidak diketahui dan memadankan imej kedalaman dengan tepat.
Berbanding model tercanggih yang lain, DepthFM memperoleh imej yang lebih jelas dengan hanya satu penilaian fungsi. Anggaran kedalaman Marigold mengambil masa dua kali lebih lama daripada DethFM, tetapi ia tidak dapat menjana peta kedalaman dengan butiran yang sama.
(1) Cadangan DepthFM, model anggaran kedalaman monokular yang tercanggih, serba boleh dan pantas. Selain tugasan anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugasan hiliran seperti pengecatan dalam kedalaman dan sintesis imej berhawa dingin.
(2) menunjukkan kejayaan pemindahan imej terdahulu yang kukuh daripada model penyebaran kepada model padanan aliran dengan sedikit pergantungan pada data latihan dan tidak memerlukan imej dunia sebenar.
(3) menunjukkan bahawa model pemadanan aliran adalah cekap dan boleh mensintesis peta kedalaman dalam satu langkah inferens.
(4) Walaupun dilatih hanya pada data sintetik, DepthFM berprestasi baik pada set data penanda aras dan imej semula jadi.
(5) Gunakan kehilangan normal permukaan sebagai sasaran tambahan untuk mendapatkan anggaran kedalaman yang lebih tepat.
(6) Selain anggaran kedalaman, keyakinan ramalannya juga boleh diramalkan dengan pasti.
Saluran Paip Latihan. Latihan dihadkan oleh pemadanan aliran dan kehilangan normal permukaan: untuk pemadanan aliran, pemadanan aliran bergantung data digunakan untuk mengundur medan vektor antara kedalaman kebenaran tanah dan imej yang sepadan. Selain itu, realisme geometri dicapai melalui kehilangan normal permukaan.
Padanan aliran berkaitan data: DepthFM mengundur medan vektor garis lurus antara taburan imej dan taburan kedalaman dengan menggunakan pasangan imej ke kedalaman. Pendekatan ini menggalakkan penaakulan beberapa langkah yang cekap tanpa mengorbankan prestasi.
Penalaan halus daripada Diffusion Priors: Pengarang menunjukkan kejayaan pemindahan prior imej yang berkuasa daripada model resapan sintesis imej asas (Stable Diffusion v2-1) kepada model padanan aliran dengan sedikit pergantungan pada data latihan dan tidak memerlukan penggunaan sebenar -Imej dunia.
Kehilangan normal permukaan tambahan: Memandangkan DepthFM hanya dilatih pada data sintetik, dan kebanyakan set data sintetik menyediakan normal permukaan kebenaran tanah, kehilangan normal permukaan digunakan sebagai sasaran tambahan untuk meningkatkan ketepatan anggaran kedalaman DepthFM.
DepthFM menunjukkan keupayaan generalisasi yang ketara dengan melatih hanya 63k sampel sintetik semata-mata, dan mampu membuat anggaran kedalaman sifar tangkapan pada set data dalaman dan luaran. Jadual 1 secara kualitatif menunjukkan perbandingan prestasi DepthFM dengan model sepadan yang terkini. Walaupun model lain sering bergantung pada set data yang besar untuk latihan, DepthFM memanfaatkan pengetahuan yang kaya yang wujud dalam model berasaskan resapan asas. Kaedah ini bukan sahaja menjimatkan sumber pengkomputeran, tetapi juga menekankan kebolehsuaian dan kecekapan latihan model.
Perbandingan anggaran kedalaman Marigold berasaskan resapan, penanda aras Padanan Aliran (FM) dan model DepthFM. Setiap kaedah dinilai menggunakan hanya satu ahli ensemble dan dengan bilangan penilaian fungsi (NFE) yang berbeza-beza pada dua set data penanda aras biasa. Berbanding dengan garis dasar FM, DepthFM menyepadukan kehilangan normal dan gandingan bergantung kepada data semasa latihan.
Hasil kualitatif untuk model Marigold dan DepthFM dalam bilangan penilaian fungsi yang berbeza. Perlu diingat bahawa Marigold tidak memberikan sebarang hasil yang bermakna melalui inferens satu langkah, manakala keputusan DepthFM sudah menunjukkan peta kedalaman sebenar.
Penyelesaian mendalam pada Hypersim. Kiri: Memberi sedikit kedalaman. Sederhana: Kedalaman dianggarkan daripada kedalaman separa yang diberikan. Kanan: Kedalaman sebenar.
DepthFM, kaedah pemadanan aliran untuk anggaran kedalaman monokular. Dengan mempelajari pemetaan langsung antara imej input dan kedalaman, dan bukannya menafikan taburan normal ke dalam peta kedalaman, pendekatan ini jauh lebih cekap daripada penyelesaian berasaskan resapan semasa sambil masih menyediakan peta kedalaman yang terperinci tanpa artifak biasa paradigma diskriminatif . DepthFM menggunakan model resapan imej yang telah terlatih sebagai model sebelumnya, dengan berkesan memindahkannya ke model padanan aliran dalam. Oleh itu, DepthFM hanya dilatih pada data sintetik tetapi masih digeneralisasikan dengan baik kepada imej semula jadi semasa inferens. Selain itu, kehilangan normal permukaan tambahan telah ditunjukkan untuk meningkatkan anggaran kedalaman. Pendekatan ringan DepthFM adalah kompetitif, pantas dan memberikan anggaran keyakinan yang boleh dipercayai.
Pembaca yang berminat dengan lebih banyak keputusan eksperimen dan butiran artikel boleh membaca kertas asal
Atas ialah kandungan terperinci Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!