Neuronales Volumen-Rendering: NeRF und darüber hinaus-KI-php.cn

Zusammenfassung des Referenzpapiers „NEURAL VOLUME RENDERING: NERF AND BEYOND“, Januar 2021, gemeinsam verfasst von Georgia Tech und MIT.

Neuronales Volumen-Rendering: NeRF und darüber hinaus

Neuronales Rendering ist definiert als:

„Eine Tiefenbild- oder Videogenerierungsmethode, die eine explizite oder implizite Steuerung von Szeneneigenschaften wie Beleuchtung, Kameraparameter, Pose, Geometrie, Erscheinungsbild und semantische Struktur ermöglicht“.

Es handelt sich um eine neue datengesteuerte Lösung, die das seit langem bestehende Problem der realistischen Darstellung virtueller Welten in Computergrafiken löst.

Neuronales Volumenrendering bezieht sich auf eine Methode zur Generierung von Bildern oder Videos, indem Strahlen in einer Szene verfolgt und eine Art Integration entlang der Länge der Strahlen durchgeführt wird. Typischerweise kodiert ein neuronales Netzwerk wie ein mehrschichtiges Perzeptron Funktionen von den 3D-Koordinaten von Licht bis hin zu Dichte und Farbe usw. und integriert sie, um ein Bild zu erzeugen.

Die direkte Pionierarbeit des neuronalen Volumenrenderings ist die Methode zur Definition impliziter Oberflächendarstellung mithilfe neuronaler Netze. Viele 3D-fähige Bilderzeugungsmethoden verwenden Voxel, Gitter, Punktwolken oder andere Darstellungen, oft basierend auf Faltungsarchitekturen. Aber auf der CVPR 2019 wurde in mindestens drei Artikeln die Verwendung neuronaler Netze als Skalarfunktionsnäherungen zur Definition von Belegungs- und/oder vorzeichenbehafteten Distanzfunktionen (SDF) vorgestellt.

Belegungsnetzwerke führen koordinatenbasiertes implizites Belegungslernen ein. Ein aus 5 ResNet-Blöcken bestehendes Netzwerk, das Merkmalsvektoren und 3D-Punkte als Eingabe verwendet, sagt die binäre Belegung voraus.
IM-NET verwendet einen 6-schichtigen MLP-Decoder, um die binäre Belegung anhand von Merkmalsvektoren und 3D-Koordinaten vorherzusagen. Kann zur automatischen Kodierung, Formgenerierung (GAN-Stil) und Einzelansichtsrekonstruktion verwendet werden.
DeepSDF extrahiert die vorzeichenbehaftete Distanzfunktion direkt aus einer 3D-Koordinate und einem latenten Code. Es verwendet ein 8-Layer-MPL mit Hop-Verbindungen zu Layer 4.
PIFu zeigt, dass durch die Neuprojektion von 3D-Punkten in pixelausgerichtete Merkmalsdarstellungen besonders detaillierte implizite Modelle erlernt werden können. Dies wird in PixelNeRF wiederholt und der Effekt ist sehr gut.

Andere Ansätze zur Verwendung impliziter Funktionen sind:

Structured Implicit Functions (2019) hat gezeigt, dass es möglich ist, diese impliziten Darstellungen zu kombinieren, z. B. einfach zu summieren.
CvxNet (2020) kombiniert vorzeichenbehaftete Distanzfunktionen durch die Übernahme von punktweisem Max (3D).
BSP Network (2020) ähnelt CvxNet in vielerlei Hinsicht, verwendet jedoch im Kern die binäre Raumpartitionierung, was zu einer Methode zur lokalen Ausgabe von Polygonnetzen führt, anstatt teure Vernetzungsmethoden zu verwenden.
Deep Local Shapes (2020) speichert latente Deep-SDF-Codes in Voxelgittern, um größere erweiterte Szenen darzustellen.
Scene Representation Networks (2019) oder SRN ist DeepSDF architektonisch sehr ähnlich, fügt jedoch einen differenzierbaren Ray-Marching-Algorithmus hinzu, um den nächsten Schnittpunkt der gelernten impliziten Oberfläche zu finden, und fügt MLP-Regressionsfarbe hinzu, die aus Bildern lernen kann mehrere Posen.
Differentiable Volumetric Rendering (2019) zeigte, dass implizite Szenendarstellungen mit differenzierbaren Renderern kombiniert werden können, die aus Bildern trainiert werden können, ähnlich wie SRN. Der Begriff „Volumenrenderer“ wird verwendet, aber der eigentliche Hauptbeitrag ist ein cleverer Trick, der die Tiefenberechnung impliziter Oberflächen differenzierbar macht: keine Integration über das Volumen.
Implicit Differentiable Renderer (2020) bietet ähnliche Techniken, jedoch mit einer komplexeren Oberflächenlichtfelddarstellung, was zeigt, dass es Kamerapositionen während des Trainings optimieren kann.
Neural Articulated Shape Approximation (2020) oder NASA, die implizite Funktionen zur Darstellung gemeinsamer Ziele wie des menschlichen Körpers bildet.

Nicht völlig aus dem Nichts, obwohl es immer noch auf einer (verzerrten) Voxel-basierten Darstellung basiert, führt das Neural Volumes-Papier Volumenrendering für die Ansichtssynthese sowie die Regression von Dichte und Farbe von 3D-Volumina ein. Der latente Code wird in ein 3D-Volumen dekodiert und durch Volumenrendering wird ein neues Bild erhalten.

Es wird vorgeschlagen, an jeder Position im 3D-Raum eine Volumendarstellung bestehend aus Opazität und Farbe zu verwenden, wobei die Wiedergabe durch integrale Projektion erreicht wird. Während des Optimierungsprozesses verteilt diese halbtransparente geometrische Darstellung die Gradienteninformationen entlang des integrierenden Strahls, wodurch der Konvergenzbereich effektiv erweitert und so die Entdeckung guter Lösungen ermöglicht wird.

Der Artikel, der für alle Diskussionen gesorgt hat, ist der Artikel „Neural Radiation Field NeRF“ (2020). Im Wesentlichen wird eine tiefe SDF-Architektur verwendet, aber anstelle einer Regression der signierten Distanzfunktion (SDF) werden Dichte und Farbe zurückgegeben. Anschließend wird eine (leicht differenzierbare) numerische Integrationsmethode verwendet, um den Rendering-Schritt für das reale Volumen anzunähern.

Das NeRF-Modell speichert volumetrische Szenendarstellungen als Gewichte von MLPs und wird auf vielen Bildern mit bekannten Posen trainiert. Durch die Integration von Dichte und Farbe in regelmäßigen Abständen entlang jedes Betrachtungsstrahls wird eine neue Ansicht gerendert.

Einer der Gründe für die sehr detaillierte Darstellung von NeRF ist die Verwendung periodischer Aktivierungsfunktionen oder Fourier-Funktionen, um 3D-Punkte auf einem Strahl und die zugehörige Blickrichtung zu kodieren. Diese Innovation wurde später auf mehrschichtige Netzwerke mit periodischen Aktivierungsfunktionen ausgeweitet, nämlich SIREN (SInusoidal-REpresentation Networks). Beide Artikel wurden in NeurIPS 2020 veröffentlicht.

Man kann sagen, dass die Wirkung des NeRF-Papiers in seiner brutalen Einfachheit liegt: Nur ein MLP gibt Dichte und Farbe in 5D-Koordinaten aus. Es gibt einiges an Schnickschnack, insbesondere die Positionskodierung und das geschichtete Sampling-Schema, aber es ist überraschend, dass eine so einfache Architektur so beeindruckende Ergebnisse liefern kann. Dennoch bietet das ursprüngliche NeRF viele Verbesserungsmöglichkeiten: Sowohl das Training als auch das Rendering sind langsam.

Feste Beleuchtung.
Die trainierte NeRF-Darstellung lässt sich nicht auf andere Szenarien/Ziele verallgemeinern.
Einige Projekte/Papiere zielen darauf ab, die eher langsamen Trainings- und Renderzeiten des ursprünglichen NeRF-Papiers zu verbessern.

JaxNeRF (2020) mit JAX-Unterstützung (

github.com/google/jax#🎜🎜 #) Training mit mehreren Geräten, bei dem Tage zu Stunden werden, was die Geschwindigkeit erheblich beschleunigt. AutoInt (2020) lernt direkt Volumenintegrale und beschleunigt so das Rendern erheblich. Learned Initialization (2020) nutzt Meta-Learning, um eine gute Gewichtsinitialisierung zu finden und das Training zu beschleunigen.
DeRF (2020) zerlegt die Szene in einen „weichen Voronoi-Graphen“ und nutzt dabei die Beschleunigerspeicherarchitektur.
NERF++ (2020) schlägt vor, einen separaten NERF zu verwenden, um den Hintergrund zu modellieren und unendliche Szenen zu verarbeiten.
Neural Sparse Voxel Fields (2020) organisiert Szenen in spärlichen Voxel-Octrees und erhöht so die Rendering-Geschwindigkeit um das Zehnfache.
Mindestens vier Arbeiten konzentrieren sich auf dynamische Szenen:

Nerfies (2020) und das zugrunde liegende D-NeRF für verformbare Videomodellierung unter Verwendung von a zweites MLP, um die Verzerrung auf jedes Bild des Videos anzuwenden.

D-NeRF (2020) ist dem Nerfies-Artikel sehr ähnlich und verwendet sogar die gleichen Akronyme, scheint aber die Transformation der Übersetzung einzuschränken.

Neural Scene Flow Fields (2020) nimmt ein monokulares Video mit bekannter Kameraposition als Eingabe, Tiefenvorhersage als Prior auf und der Ausgabeszenenfluss wird für die Verwendung in der Verlustfunktion reguliert.
Spatial-Temporal Neural Irradiance Field (2020) nutzt die Zeit nur als zusätzlichen Input. Um diese Methode erfolgreich zum Rendern von Videos aus beliebigen Blickwinkeln (aus RGB-D-Daten!) zu trainieren, muss die Verlustfunktion sorgfältig ausgewählt werden.
NeRFlow (2020) verwendet Deformations-MLP zur Modellierung des Szenenflusses und integriert über den Zeitbereich, um die endgültige Deformation zu erhalten.
NR NeRF (2020) verwendet auch deformierbares MLP, um nicht starre Szenen zu modellieren. Es basiert nicht auf vorberechneten Szeneninformationen außer Kameraparametern, erzeugt aber eine etwas weniger klare Ausgabe als Nerfies.
STaR (2021) verwendet Multi-View-RGB-Video als Eingabe und zerlegt die Szene in statische und dynamische Volumen. Derzeit wird jedoch nur ein bewegliches Ziel unterstützt.
Es gibt auch zwei Arbeiten, die sich auf das Porträt/Porträt der Person konzentrieren.

PortraitNeRF (2020) Erstellen Sie einen statischen Avatar im NeRF-Stil (Avatar), aber erfassen Sie das Bild mit nur einem RGB. Um dies zu erreichen, sind Trainingsdaten für die leichte Bühne erforderlich.

DNRF (G2020) konzentriert sich auf 4D-Avatare, indem es deformierte Gesichtsmodelle in die Pipeline einbezieht und eine starke induktive Vorspannung auferlegt.

Ein weiterer Aspekt, bei dem Methoden im NeRF-Stil verbessert wurden, ist die Handhabung der Beleuchtung, oft durch latenten Code, der zum erneuten Beleuchten von Szenen verwendet werden kann.

NeRV (2020) unterstützt beliebige Umgebungsbeleuchtung und indirekte „One Bounce“-Beleuchtung mit einem zweiten „Sichtbarkeits“-MLP.

NeRD (2020) ist eine weitere Arbeit, bei der ein lokales Reflexionsmodell verwendet wird und darüber hinaus für eine bestimmte Szene die sphärische harmonische Beleuchtung mit niedriger Auflösung entfernt wird.

Neuronale Reflexionsfelder (2020) Verbessern Sie NeRF durch Hinzufügen lokaler Reflexionsmodelle zusätzlich zur Dichte. Es liefert beeindruckende Nachbeleuchtungsergebnisse, obwohl es von einer einzelnen Punktlichtquelle stammt.
NeRF-W (2020) ist einer der ersten Nachfolger von NeRF und optimiert den latenten Oberflächencode, um neuronale Szenendarstellungen aus weniger kontrollierten Multi-View-Sammlungen lernen zu können.
Latente Codes können auch zum Codieren von Formprioritäten verwendet werden:

pixelNeRF (2020) kommt dem bildbasierten Rendering näher, wo es mit getestet wurde N Bilder. Es basiert auf PIFu und erstellt pixelausgerichtete Features, die dann bei der Auswertung eines Renderers im NeRF-Stil interpoliert werden.

GRF (2020) kommt pixelNeRF in den Einstellungen sehr nahe, arbeitet jedoch im Normraum statt im Ansichtsraum.

GRAF (2020) oder „Generative Model for Radiation Fields“ ist eine bedingte Variante von NeRF, die latente Codes für Aussehen und Form hinzufügt und gleichzeitig durch Training im GAN-Stil eine Blickpunktinvarianz erreicht.
pi GAN (2020), ähnlich wie GRAF, verwendet jedoch eine NeRF-Implementierung im SIREN-Stil, bei der jede Schicht durch einen anderen MLP-Ausgang unter Verwendung latenter Codes moduliert wird.
Nichts davon lässt sich wohl auf große Szenen mit vielen Zielen skalieren. Ein aufregender neuer Bereich ist daher die Gruppierung von Zielen in volumengerenderten Szenen.
- Object-Centric Neural Scene Rendering (2020) erlernt eine „Objektstreufunktion“ in einem objektzentrierten Koordinatensystem, wodurch synthetische Szenen mithilfe von Monte Carlo gerendert und realistisch beleuchtet werden können.
- GIRAFFE (2020) unterstützt die Synthese durch die Ausgabe von Merkmalsvektoren anstelle von Farben aus einem objektzentrierten NeRF-Modell, das dann durch Mittelung synthetisiert und mit niedriger Auflösung als 2D-Feature-Maps gerendert wird, um dann in 2D ein Upsampling durchzuführen .
- Neural Scene Graphs (2020) unterstützt mehrere objektzentrierte NeRF-Modelle in Szenendiagrammen.
Schließlich verwendet mindestens ein Artikel NeRF-Rendering im Zusammenhang mit der (bekannten) Zielpositionsschätzung.
- iNeRF (2020) verwendet NeRF MLP in einem Posenschätzungs-Framework und ist sogar in der Lage, die Ansichtssynthese auf Standarddatensätzen durch die Feinabstimmung von Posen zu verbessern. Allerdings kann es noch nicht mit Beleuchtung umgehen.
Es ist alles andere als klar, ob neuronale Rendering- und NeRF-Stilpapiere letztendlich erfolgreich sein werden. Auch wenn es in der realen Welt Rauch, Dunst, Transparenz usw. gibt, wird das meiste Licht letztendlich von Oberflächen in das Auge gestreut. Netzwerke im NeRF-Stil mögen aufgrund des volumenbasierten Ansatzes leicht zu trainieren sein, es ist jedoch ein Trend zu beobachten, bei dem in Arbeiten versucht wird, Oberflächen nach der Konvergenz zu entdecken oder zu erraten. Tatsächlich ist das geschichtete Stichprobenschema im ursprünglichen NeRF-Papier genau das. Daher kann man beim Lernen von NeRF leicht erkennen, dass man zumindest zum Zeitpunkt der Inferenz zu impliziten Darstellungen oder sogar Voxeln im SDF-Stil zurückkehrt.

Das obige ist der detaillierte Inhalt vonNeuronales Volumen-Rendering: NeRF und darüber hinaus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!