Penyampaian volum saraf: NeRF dan seterusnya-AI-php.cn

Ringkasan kertas rujukan "NEURAL VOLUME RENDERING: NERF AND BEYOND", Januari 2021, dikarang bersama oleh Georgia Tech dan MIT.

Penyampaian volum saraf: NeRF dan seterusnya

Rendering Neural ditakrifkan sebagai:

"Kaedah penjanaan imej atau video mendalam yang membenarkan kawalan eksplisit atau tersirat ke atas pemandangan Sifat seperti pencahayaan, parameter kamera, pose, geometri, rupa dan struktur semantik”.

Ia ialah penyelesaian terpacu data baharu yang menyelesaikan masalah lama pemaparan fotorealistik dunia maya dalam grafik komputer.

Pemaparan volum saraf merujuk kepada kaedah menjana imej atau video dengan menjejak sinar ke dalam pemandangan dan melakukan beberapa jenis penyepaduan sepanjang sinar. Biasanya, rangkaian saraf seperti perceptron berbilang lapisan mengekod fungsi daripada koordinat 3D cahaya kepada ketumpatan dan warna, dsb., dan menyepadukannya untuk menghasilkan imej.

Kerja perintis langsung pemaparan volum saraf ialah kaedah mentakrifkan perwakilan permukaan tersirat menggunakan rangkaian saraf. Banyak kaedah penjanaan imej persepsi 3D menggunakan voxel, grid, awan titik atau perwakilan lain, selalunya berdasarkan seni bina konvolusi. Tetapi pada CVPR 2019, sekurang-kurangnya tiga kertas kerja memperkenalkan penggunaan rangkaian saraf sebagai anggaran fungsi skalar untuk menentukan penghunian dan/atau fungsi jarak bertanda (SDF).

Rangkaian penghunian memperkenalkan pembelajaran penghunian tersirat berasaskan koordinat. Rangkaian yang terdiri daripada 5 blok ResNet, menggunakan vektor ciri dan titik 3D sebagai input, meramalkan penghunian binari.
IM-NET menggunakan penyahkod MLP 6 lapisan untuk meramal penghunian binari diberikan vektor ciri dan koordinat 3D. Boleh digunakan untuk pengekodan automatik, penjanaan bentuk (gaya GAN) dan pembinaan semula satu pandangan.
DeepSDF mengekstrak fungsi jarak yang ditandatangani terus daripada koordinat 3D dan kod terpendam. Ia menggunakan MPL 8 lapisan dengan sambungan hop ke lapisan 4.
PIFu menunjukkan bahawa dengan memproyeksikan semula titik 3D ke dalam perwakilan ciri sejajar piksel, terutamanya model tersirat yang terperinci boleh dipelajari. Ini berulang dalam PixelNeRF, dan kesannya sangat baik.

Pendekatan lain yang menggunakan fungsi tersirat ialah:

Fungsi Tersirat Berstruktur (2019) menunjukkan bahawa adalah mungkin untuk menggabungkan perwakilan tersirat ini, sebagai contoh, dengan hanya menjumlahkannya .
CvxNet (2020) menggabungkan fungsi jarak yang ditandatangani dengan mengguna pakai Max (3D).
Rangkaian BSP (2020) adalah serupa dengan CvxNet dalam banyak cara, tetapi menggunakan pembahagian ruang binari pada terasnya, menghasilkan kaedah pengeluaran jejaring poligon secara tempatan dan bukannya melalui kaedah siratan yang mahal.
Deep Local Shapes (2020) menyimpan kod pendam SDF dalam dalam grid voxel untuk mewakili adegan lanjutan yang lebih besar.
Scene Representation Networks (2019), atau SRN, sangat serupa dalam seni bina dengan DeepSDF, tetapi menambah algoritma perarakan sinar yang boleh dibezakan untuk mencari titik persilangan terdekat bagi permukaan tersirat yang dipelajari, dan menambahkan warna regresi MLP, dapat untuk belajar daripada berbilang pose Belajar daripada imej.
Rendering Volumetrik Boleh Dibezakan (2019) menunjukkan bahawa perwakilan adegan tersirat boleh digabungkan dengan pemapar boleh dibezakan yang boleh dilatih daripada imej, serupa dengan SRN. Istilah "penyampai volum" digunakan, tetapi sumbangan utama sebenar ialah helah bijak yang menjadikan pengiraan kedalaman permukaan tersirat boleh dibezakan: tidak menyepadukan kelantangan.
Implicit Differentiable Renderer (2020) menawarkan teknik yang serupa tetapi dengan perwakilan medan cahaya permukaan yang lebih kompleks, menunjukkan bahawa ia boleh mengoptimumkan pose kamera semasa latihan.
Penghampiran Bentuk Artikulasi Neural (2020) atau NASA, membentuk fungsi tersirat untuk mewakili sasaran bersama, seperti tubuh manusia.

Tidak sepenuhnya keluar dari udara nipis, walaupun masih berdasarkan perwakilan berasaskan voxel (meleset), makalah Neural Volumes memperkenalkan pemaparan volum untuk sintesis paparan, ketumpatan mundur dan warna voxel 3D . Kod terpendam dinyahkodkan kepada volum 3D, dan imej baharu diperoleh melalui pemaparan volum.

Ia mencadangkan penggunaan perwakilan volum yang terdiri daripada kelegapan dan warna pada setiap kedudukan dalam ruang 3D, di mana pemaparan dicapai melalui unjuran integral. Semasa proses pengoptimuman, perwakilan geometri separa telus ini menyebarkan maklumat kecerunan di sepanjang sinar penyepaduan, meluaskan julat penumpuan secara berkesan dan dengan itu membolehkan penemuan penyelesaian yang baik.

Kertas yang menyebabkan perbincangan semua orang ialah kertas NeRF medan sinaran saraf (2020). Pada asasnya, seni bina SDF mendalam digunakan, tetapi bukannya mengundurkan fungsi jarak yang ditandatangani (SDF), ketumpatan dan warna dikembalikan. Kemudian, kaedah penyepaduan berangka (mudah dibezakan) digunakan untuk menganggarkan langkah pemaparan volum sebenar.

Model NeRF menyimpan perwakilan pemandangan volumetrik sebagai pemberat MLP dan dilatih pada banyak imej dengan pose yang diketahui. Paparan baharu dipaparkan dengan menyepadukan ketumpatan dan warna pada selang masa yang tetap di sepanjang setiap sinar tontonan.

Salah satu sebab untuk pemaparan NeRF yang sangat terperinci ialah penggunaan fungsi pengaktifan berkala, atau ciri Fourier, untuk mengekod titik 3D pada sinar dan arah pandangan yang berkaitan. Inovasi ini kemudiannya diperluaskan kepada rangkaian berbilang lapisan dengan fungsi pengaktifan berkala, iaitu SIREN (SInusoidal- Representation Networks). Kedua-dua artikel telah diterbitkan dalam NeurIPS 2020.

Boleh dikatakan bahawa kesan kertas NeRF terletak pada kesederhanaan yang kejam: hanya satu MLP mengeluarkan ketumpatan dan warna dalam koordinat 5D. Terdapat beberapa loceng dan wisel, terutamanya pengekodan kedudukan dan skim pensampelan berstrata, tetapi menghairankan bahawa seni bina yang begitu mudah boleh menghasilkan hasil yang begitu mengagumkan. Namun, NeRF asal meninggalkan banyak peluang untuk penambahbaikan:

Kedua-dua latihan dan rendering adalah perlahan.
hanya boleh mewakili adegan statik.
Pencahayaan tetap.
Perwakilan NeRF terlatih tidak digeneralisasikan kepada senario/objektif lain.

Beberapa projek/kertas kerja bertujuan untuk menambah baik latihan dan masa rendering yang agak perlahan bagi kertas NeRF asal.

JaxNeRF (2020) dengan sokongan JAX (https://github.com/google/jax ) Latihan berbilang peranti, bertukar dari hari ke jam, sangat mempercepatkan proses.
AutoInt (2020) secara langsung mempelajari kamiran volum, dengan sangat mempercepatkan pemaparan.
Learned Initialization (2020) menggunakan meta-learning untuk mencari permulaan berat badan yang baik dan mempercepatkan latihan.
DeRF (2020) menguraikan pemandangan menjadi "graf Voronoi lembut", memanfaatkan seni bina memori pemecut.
NERF++ (2020) mengesyorkan menggunakan NERF yang berasingan untuk memodelkan latar belakang dan mengendalikan senario tanpa had.
Neural Sparse Voxel Fields (2020) menyusun adegan menjadi oktre voxel jarang, meningkatkan kelajuan pemaparan sebanyak 10x.

Sekurang-kurangnya empat karya memfokuskan pada adegan dinamik:

Nerfies (2020) dan D-NeRF asasnya untuk memodelkan video boleh ubah bentuk, menggunakan MLP kedua Sapukan ledingan pada setiap bingkai video.
D-NeRF (2020) sangat serupa dengan kertas Nerfies malah menggunakan akronim yang sama, tetapi nampaknya mengehadkan transformasi terjemahan.
Neural Scene Flow Fields (2020) mengambil video monokular dengan pose kamera yang diketahui sebagai input, ramalan kedalaman sebagai sebelumnya dan mengeluarkan aliran pemandangan untuk teratur untuk digunakan dalam fungsi kehilangan.
Spatial-Temporal Neural Irradiance Field (2020) hanya menggunakan masa sebagai input tambahan. Untuk berjaya melatih kaedah ini untuk menghasilkan video sudut pandangan arbitrari (dari data RGB-D!), fungsi kehilangan perlu dipilih dengan teliti.
NeRFlow (2020) menggunakan MLP ubah bentuk untuk memodelkan aliran pemandangan dan menyepadukan merentas domain masa untuk mendapatkan ubah bentuk akhir.
NR NeRF (2020) juga menggunakan MLP cacat untuk memodelkan adegan tidak tegar. Ia tidak bergantung pada maklumat pemandangan yang diprakira selain daripada parameter kamera, tetapi menghasilkan output yang kurang jelas berbanding Nerfies.
STAR (2021) mengambil video RGB berbilang paparan sebagai input dan menguraikan pemandangan kepada volum statik dan dinamik. Walau bagaimanapun, pada masa ini ia hanya menyokong satu sasaran bergerak.

Terdapat juga dua kertas kerja yang memfokuskan pada avatar/potret orang.

PortraitNeRF (2020) Mencipta avatar gaya NeRF statik (Avatar), tetapi menangkap imej dengan hanya satu RGB. Untuk mencapai matlamat ini, data latihan peringkat ringan diperlukan.
DNRF (G2020) memfokuskan pada Avatar 4D, menggabungkan model muka yang cacat ke dalam saluran paip dan mengenakan kecenderungan induktif yang kuat.

Satu lagi aspek di mana kaedah gaya NeRF telah dipertingkatkan ialah cara pencahayaan dikendalikan, selalunya melalui kod terpendam yang boleh digunakan untuk menghidupkan semula adegan.

NeRV (2020) menyokong pencahayaan ambien sewenang-wenangnya dan pencahayaan tidak langsung "satu lantunan" dengan MLP "keterlihatan" kedua.
NeRD (2020) ialah satu lagi karya yang menggunakan model pantulan tempatan dan, lebih-lebih lagi, untuk pemandangan tertentu, pencahayaan harmonik sfera resolusi rendah dialih keluar.
Neural Reflectance Fields (2020) menambah baik NeRF dengan menambahkan model pantulan tempatan, sebagai tambahan kepada ketumpatan. Ia menghasilkan hasil pencahayaan semula yang mengagumkan walaupun datang dari sumber cahaya satu titik.
NeRF-W (2020) ialah salah satu susulan pertama NeRF, mengoptimumkan kod penampilan terpendam untuk dapat mempelajari perwakilan adegan saraf daripada koleksi berbilang paparan yang kurang terkawal.

Kod pendam juga boleh digunakan untuk mengekod bentuk prior:

pixelNeRF (2020) lebih hampir kepada pemaparan berasaskan imej, di mana N imej digunakan pada masa ujian. Ia berdasarkan PIFu, mencipta ciri sejajar piksel yang kemudiannya diinterpolasi apabila menilai pemapar gaya NeRF.
GRF (2020) sangat hampir dengan pixelNeRF dalam tetapan, tetapi beroperasi dalam ruang biasa dan bukannya ruang paparan.
GRAF (2020), "Model Generatif untuk Medan Sinaran", ialah varian bersyarat NeRF yang menambah penampilan dan membentuk kod pendam sambil mencapai invarian sudut pandangan melalui latihan gaya GAN.
pi GAN (2020), serupa dengan GRAF tetapi menggunakan pelaksanaan NeRF gaya SIREN di mana setiap lapisan dimodulasi oleh output MLP yang berbeza menggunakan kod pendam.

Boleh dikatakan, tiada satu pun daripada ini berskala kepada adegan besar yang terdiri daripada banyak sasaran, jadi kawasan baharu yang menarik ialah cara mengumpulkan sasaran ke dalam adegan yang dihasilkan kelantangan.

Penyampaian Adegan Neural Berpusatkan Objek (2020) mempelajari "fungsi penyerakan objek" dalam sistem koordinat berpusatkan objek, membolehkan pemandangan sintetik dipaparkan dan diterangi secara realistik menggunakan Monte Carlo.
GIRAFFE (2020) menyokong sintesis dengan mengeluarkan vektor ciri dan bukannya warna daripada model NeRF berpusat objek, yang kemudiannya disintesis dengan purata dan diberikan pada peleraian rendah ke dalam peta ciri 2D, yang kemudiannya ditingkatkan dalam pensampelan 2D .
Graf Pemandangan Neural (2020) menyokong berbilang model NeRF bertumpu objek dalam graf pemandangan.

Akhir sekali, sekurang-kurangnya satu kertas menggunakan pemaparan NeRF dalam konteks anggaran pose objek (yang diketahui).

iNeRF (2020) menggunakan NeRF MLP dalam rangka kerja anggaran pose dan malah mampu memperbaik sintesis paparan pada set data standard dengan pose penalaan halus. Walau bagaimanapun, ia belum dapat mengendalikan pencahayaan.

Adalah jauh dari jelas sama ada pemaparan volum neural dan kertas gaya NeRF akhirnya akan berjaya. Walaupun asap, jerebu, ketelusan, dll. memang wujud di dunia nyata, akhirnya kebanyakan cahaya bertaburan dari permukaan ke dalam mata. Rangkaian gaya NeRF mungkin mudah dilatih kerana pendekatan berasaskan volum, tetapi trend telah dilihat apabila kertas cuba menemui atau meneka permukaan selepas penumpuan. Sebenarnya, skema persampelan berstrata dalam kertas NeRF asal adalah seperti ini. Oleh itu, apabila belajar daripada NeRF, seseorang boleh dengan mudah melihat kembali kepada perwakilan tersirat gaya SDF atau pun voxel, sekurang-kurangnya pada masa inferens.

Atas ialah kandungan terperinci Penyampaian volum saraf: NeRF dan seterusnya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!