Kertas pelajar terbaik ICCV2023 tahun ini telah dianugerahkan kepada qianqian wang dari Universiti Cornell, yang kini merupakan penyelidik pasca doktoral di University of California, Berkeley!
Dalam bidang anggaran gerakan video, penulis menunjukkan bahawa kaedah tradisional terbahagi kepada dua jenis: penjejakan ciri jarang dan aliran optik padat. Walaupun kedua-dua kaedah telah terbukti berkesan dalam aplikasi masing-masing, kedua-dua kaedah tidak menangkap gerakan dalam video sepenuhnya. Aliran optik berpasangan tidak dapat menangkap trajektori gerakan dalam tetingkap masa yang lama, manakala penjejakan jarang tidak dapat memodelkan gerakan semua piksel Untuk merapatkan jurang ini, banyak kajian telah cuba menganggarkan trajektori piksel padat dan jarak jauh dalam video secara serentak. Kaedah kajian ini berbeza daripada hanya memautkan medan aliran optik dua bingkai kepada meramalkan secara langsung trajektori setiap piksel merentas berbilang bingkai. Walau bagaimanapun, kaedah ini selalunya hanya mempertimbangkan konteks terhad apabila menganggarkan pergerakan dan mengabaikan maklumat yang jauh dari segi masa atau ruang. Rabun jauh ini boleh membawa kepada pengumpulan ralat dalam trajektori yang panjang, serta ketidakkonsistenan spatiotemporal dalam anggaran gerakan. Walaupun sesetengah kaedah mempertimbangkan konteks jangka panjang, kaedah tersebut masih beroperasi dalam domain 2D, yang mungkin membawa kepada kehilangan penjejakan dalam peristiwa oklusi.
Secara keseluruhan, anggaran trajektori padat dan jarak jauh dalam video kekal sebagai masalah yang tidak dapat diselesaikan dalam bidang tersebut. Masalah ini melibatkan tiga cabaran utama: 1) Bagaimana untuk mengekalkan ketepatan trajektori dalam urutan yang panjang, 2) Bagaimana untuk mengesan lokasi titik di bawah oklusi, 3) Bagaimana untuk mengekalkan konsistensi spatiotemporal Dalam artikel ini, Penulis mencadangkan gerakan video novel kaedah anggaran yang menggunakan semua maklumat dalam video untuk menganggarkan trajektori gerakan lengkap setiap piksel secara bersama. Kaedah ini dipanggil "OmniMotion" dan ia menggunakan perwakilan kuasi-3D. Dalam perwakilan ini, volum 3D standard dipetakan kepada volum tempatan pada setiap bingkai. Pemetaan ini berfungsi sebagai sambungan fleksibel kepada geometri berbilang paparan dinamik dan boleh mensimulasikan gerakan kamera dan pemandangan secara serentak. Perwakilan ini bukan sahaja memastikan ketekalan gelung tetapi juga menjejaki semua piksel semasa oklusi. Pengarang mengoptimumkan perwakilan ini untuk setiap video, menyediakan penyelesaian untuk gerakan sepanjang video. Selepas pengoptimuman, perwakilan ini boleh ditanya pada mana-mana koordinat berterusan video untuk mendapatkan trajektori gerakan yang merangkumi keseluruhan videoKaedah yang dicadangkan dalam kertas ini boleh: 1) Menjana perwakilan lengkap yang konsisten secara global untuk semua titik dalam keseluruhan trajektori gerakan video , 2) titik penjejakan melalui oklusi, dan 3) memproses video sebenar dengan pelbagai kombinasi tindakan kamera dan adegan. Pada penanda aras penjejakan video TAP, kaedah ini berprestasi baik, jauh mengatasi kaedah sebelumnya.3. Kaedah
Kertas ini mencadangkan kaedah berasaskan pengoptimuman masa ujian untuk menganggar gerakan padat dan jarak jauh daripada jujukan video. Mula-mula, mari kita berikan gambaran keseluruhan kaedah yang dicadangkan dalam kertas kerja:: Kaedah pengarang mengambil set bingkai dan pasangan anggaran gerakan bising (seperti medan aliran optik) sebagai input.
Kandungan video diwakili oleh volum biasa bernama G, yang bertindak sebagai peta tiga dimensi bagi pemandangan yang diperhatikan. Sama seperti yang dilakukan dalam NeRF, mereka mentakrifkan rangkaian berasaskan koordinat nerf yang memetakan setiap koordinat 3D biasa uvw dalam G kepada ketumpatan σ dan warna c Ketumpatan yang disimpan dalam G memberitahu kita di mana permukaan berada dalam ruang biasa. Apabila digabungkan dengan bijection 3D, ini membolehkan kami menjejak permukaan pada berbilang bingkai dan memahami hubungan oklusi. Warna yang disimpan dalam G membolehkan kami mengira kehilangan fotometrik semasa pengoptimuman.
Kertas ini memperkenalkan pemetaan bijection berterusan, dilambangkan sebagai , yang mengubah titik 3D daripada sistem koordinat tempatan kepada sistem koordinat 3D kanonik. Koordinat kanonik ini berfungsi sebagai rujukan atau "indeks" yang konsisten dalam masa untuk titik pemandangan atau trajektori 3D. Kelebihan utama menggunakan pemetaan bijektif ialah ketekalan berkala yang mereka sediakan dalam titik 3D antara bingkai yang berbeza, kerana semuanya berasal dari titik kanonik yang sama.
Persamaan pemetaan dari titik 3D dari satu bingkai tempatan ke bingkai yang lain ialah:
Untuk menangkap gerakan dunia nyata yang kompleks, bijection ini diparameterkan sebagai Rangkaian Neural Songsang (INN). Pilihan Real-NVP sebagai model dipengaruhi oleh kesederhanaan dan sifatnya yang boleh diterbalikkan secara analitikal. Real-NVP melaksanakan pemetaan bijektif dengan menggunakan transformasi asas yang dipanggil lapisan gandingan affine. Lapisan ini membelah input supaya satu bahagian kekal tidak berubah manakala bahagian lain mengalami transformasi afin.
Untuk meningkatkan lagi seni bina ini, kita boleh melakukannya dengan mesyaratkan kod terpendam latent_i setiap bingkai. Oleh itu, semua pemetaan boleh balik i ditentukan oleh rangkaian pemetaan rangkaian boleh balik tunggal, tetapi ia mempunyai kod terpendam yang berbeza
Mengira semula gerakan antara bingkai
Bahagian ini menerangkan cara mengira gerakan 2D untuk sebarang querypixel dalam bingkai i. Secara intuitif, piksel pertanyaan mula-mula "diangkat" kepada 3D dengan titik pensampelan pada sinar, kemudian titik 3D ini "dipetakan" ke rangka sasaran j menggunakan pemetaan bijection i dan pemetaan j, diikuti dengan penggubahan alfa daripada sampel yang berbeza" Titik 3D yang dipetakan ini "diberikan" dan akhirnya "diunjurkan" kembali ke dalam 2D untuk mendapatkan surat-menyurat yang diandaikan.
Jadual data eksperimen ini menunjukkan prestasi pelbagai kaedah anggaran gerakan pada tiga set data - Kinetik, DAVIS dan RGB-Stacking. Untuk menilai prestasi kaedah individu, empat metrik digunakan: AJ, purata, OA dan TC. Sebagai tambahan kepada dua kaedah yang dicadangkan oleh pengarang (kami (TAP-Net) dan kami (RAFT)), terdapat 7 kaedah lain. Perlu diingat bahawa kedua-dua kaedah pengarang berprestasi baik pada kebanyakan metrik dan set data. Khususnya, kaedah (RAFT) kami mencapai hasil terbaik pada AJ, purata dan OA untuk ketiga-tiga set data, sambil menjadi yang kedua terbaik pada TC. Kaedah (TAP-Net) kami juga mencapai prestasi cemerlang yang serupa pada beberapa langkah. Sementara itu, kaedah lain mempunyai prestasi bercampur pada metrik ini. Perlu dinyatakan bahawa kaedah pengarang dan kaedah "Deformable Sprites" menganggarkan gerakan global melalui pengoptimuman masa ujian pada setiap video, manakala semua kaedah lain menggunakan pendekatan ke hadapan untuk melakukan anggaran gerakan secara tempatan. Secara ringkasnya, kaedah pengarang mengatasi semua kaedah lain yang diuji dari segi ketepatan kedudukan, ketepatan oklusi dan kesinambungan temporal, menunjukkan kelebihan ketara
Ini ialah jadual keputusan eksperimen ablasi untuk set data DAVIS . Eksperimen ablasi dijalankan untuk mengesahkan sumbangan setiap komponen kepada prestasi keseluruhan sistem. Terdapat empat kaedah yang disenaraikan dalam jadual ini, tiga daripadanya ialah versi yang mengalih keluar komponen utama tertentu dan versi "Penuh" terakhir merangkumi semua komponen.
Secara keseluruhan, keputusan eksperimen ablasi ini menunjukkan bahawa walaupun setiap komponen mempunyai peningkatan prestasi tertentu, ia boleh diterbalikkan Seks mungkin komponen yang paling penting, kerana tanpanya, penalti prestasi akan menjadi berat
Akhirnya, pendekatan kami boleh menjadi mahal secara pengiraan dalam bentuk semasa. Pertama, proses pengumpulan aliran melibatkan pengiraan menyeluruh bagi semua aliran berpasangan, yang berkembang secara kuadratik dengan panjang jujukan. Tetapi kami percaya bahawa kebolehskalaan proses ini boleh dipertingkatkan dengan meneroka kaedah pemadanan yang lebih cekap, seperti pepohon perbendaharaan kata atau pemadanan berasaskan kerangka utama, dan mengambil inspirasi daripada gerakan struktur dan kesusasteraan SLAM. Kedua, seperti kaedah lain yang menggunakan perwakilan tersirat saraf, kaedah kami melibatkan proses pengoptimuman yang agak panjang. Penyelidikan terkini dalam bidang ini boleh membantu mempercepatkan proses ini dan seterusnya memanjangkannya kepada urutan yang lebih panjang
6 Kesimpulan Kaedah pengoptimuman masa ujian baharu dicadangkan untuk menganggarkan pergerakan yang lengkap dan konsisten di seluruh dunia video. Perwakilan gerakan video baharu diperkenalkan, dipanggil OmniMotion, yang terdiri daripada volum standard kuasi-3D dan bijeksi kanonik tempatan untuk setiap bingkai. OmniMotion boleh memproses video biasa dengan tetapan kamera dan dinamik pemandangan yang berbeza serta menghasilkan gerakan jarak jauh yang tepat dan lancar melalui oklusi. Penambahbaikan yang ketara berbanding kaedah tercanggih sebelum ini dicapai, secara kualitatif dan kuantitatif.Atas ialah kandungan terperinci Penulisan semula tajuk: Penjejakan kertas pelajar cemerlang ICCV 2023, Github telah memperoleh 1.6K bintang, maklumat komprehensif seperti sihir!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!