UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden-KI-php.cn

In letzter Zeit werden neue Artikel so schnell veröffentlicht, dass ich das Gefühl habe, sie nicht lesen zu können. Es ist ersichtlich, dass die Fusion multimodaler großer Modelle für Sprache und Vision zu einem Branchenkonsens geworden ist. Dieser Artikel auf UniPad ist repräsentativer und bietet multimodale Eingaben und ein vorab trainiertes Basismodell für weltähnliche Modelle. und gleichzeitig ist eine einfache Erweiterung auf mehrere herkömmliche Bildverarbeitungsanwendungen möglich. Es löst auch das Problem der Anwendung der Vortrainingsmethode großer Sprachmodelle auf 3D-Szenen und bietet so die Möglichkeit eines einheitlichen großen Modells der Wahrnehmungsbasis.

UniPAD ist eine selbstüberwachte Lernmethode, die auf MAE und 3D-Rendering basiert. Sie kann ein Basismodell mit hervorragender Leistung trainieren und anschließend nachgelagerte Aufgaben am Modell verfeinern und trainieren, wie z. B. Tiefenschätzung, Objekterkennung und Segmentierung. Diese Studie hat eine einheitliche 3D-Raumdarstellungsmethode entwickelt, die leicht in 2D- und 3D-Frameworks integriert werden kann, eine größere Flexibilität aufweist und mit der Positionierung des Basismodells übereinstimmt

Denk- und Zweifelspunkte beim Lesen:

Welche Beziehung besteht zwischen? maskierte Autoencoding-Technologie und 3D-differenzierbare Rendering-Technologie? Einfach ausgedrückt: Bei der maskierten automatischen Kodierung geht es darum, die selbstüberwachten Trainingsfunktionen von Autoencoder zu nutzen, und bei der „Rendering-Technologie“ geht es darum, die Verlustfunktion zwischen dem generierten Bild und dem Originalbild zu berechnen und ein überwachtes Training durchzuführen. Die Logik ist also immer noch sehr klar.

Dieser Artikel verwendet die Vortrainingsmethode des Basismodells

und optimiert dann die Downstream-Erkennungsmethode und die Segmentierungsmethode. Diese Methode kann auch dabei helfen, zu verstehen, wie das aktuelle große Modell mit nachgelagerten Aufgaben funktioniert.

Es scheint, dass die Timing-Informationen nicht kombiniert werden

. Immerhin ist NuScenes NDS von Pure Vision 50.2 im Vergleich zu Timing-Erkennungsmethoden (StreamPETR, Sparse4D usw.) derzeit noch schwächer. Daher ist auch die 4D-MAE-Methode einen Versuch wert. Tatsächlich hat GAIA-1 bereits eine ähnliche Idee erwähnt. Wie sieht es mit der Berechnungsmenge und der Speichernutzung aus?

Spezifische Methode:

UniPAD kodiert implizit räumliche 3D-Informationen. In diesem Artikel wird eine generative Maske zur Vervollständigung der Voxelfunktionen verwendet um die kontinuierlichen 3D-Formstrukturen in der Szene und ihre komplexen Erscheinungsmerkmale auf der 2D-Ebene zu rekonstruieren.

Unsere experimentellen Ergebnisse beweisen voll und ganz die Überlegenheit von UniPAD. Im Vergleich zu herkömmlichen Lidar-, Kamera- und Lidar-Kamera-Fusionsbasislinien verbessert sich der NDS von UniPAD um 9,1, 7,7 bzw. 6,9. Bemerkenswert ist, dass unsere Pre-Training-Pipeline beim nuScenes-Validierungssatz einen NDS von 73,2 und gleichzeitig einen mIoU-Score von 79,4 bei der semantischen 3D-Segmentierungsaufgabe erreichte und damit die besten Ergebnisse im Vergleich zu früheren Methoden erzielte

Gesamtarchitektur:

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden Gesamtarchitektur. Das Framework verwendet LiDar- und Multi-Shot-Bilder als Eingabe und diese multimodalen Daten werden über den Maskengenerator mit Nullen gefüllt. Die maskierte Einbettung wird in den Voxelraum umgewandelt und Rendering-Techniken werden verwendet, um RGB- oder Tiefenvorhersagen in diesem 3D-Raum zu generieren. Zu diesem Zeitpunkt kann das Originalbild, das nicht durch die Maske verdeckt wird, als generierte Daten für überwachtes Lernen verwendet werden.

Maskengenerator

Die Maske im Masked AutoEncoder wird vom Maskengenerator generiert. Dies kann als Verbesserung der Darstellungsfähigkeit und Generalisierungsfähigkeit des Modells durch Erhöhen der Trainingsschwierigkeit verstanden werden. Ein Maskengenerator wird eingeführt, um durch selektives Verdecken bestimmter Bereiche zwischen Punktwolkendaten und Bilddaten zu unterscheiden. Bei den Punktwolkendaten wird die Blockmaskierungsstrategie angewendet, bei den Bilddaten wird die Methode der spärlichen Faltung angewendet und die Berechnung erfolgt nur im sichtbaren Bereich. Wenn die Eingabedaten maskiert werden, werden die nachfolgenden Codierungsmerkmale im entsprechenden maskierten Bereich auf 0 gesetzt und bei der Modellverarbeitung ignoriert. Außerdem werden Informationen für das nachfolgende überwachte Lernen bereitgestellt, die zur Vorhersage des Ziels und der entsprechenden Groundtruth-Informationen verwendet werden können

Einheitliche Darstellung

Um die Pre-Training-Methode auf verschiedene Datenmodalitäten anwendbar zu machen, ist es wichtig, eine einheitliche Darstellung zu finden. Frühere Methoden wie BEV und OCC streben nach einer einheitlichen Form der Identifizierung. Die Projektion von 3D-Punkten in die Bildebene führt zum Verlust von Tiefeninformationen, und bei der Zusammenführung dieser Punkte in die BEV-Vogelperspektive gehen höhenbezogene Details verloren. Daher wird in diesem Artikel vorgeschlagen, beide Modalitäten in einen 3D-Volumenraum umzuwandeln, bei dem es sich um einen 3D-Voxelraum ähnlich dem OCC handelt Artikel bestanden Abtaststrahlen ähnlich wie NERF passieren Mehransichtsbilder oder Punktwolken, sagen die Farbe oder Tiefe jedes 3D-Punkts über die neuronale Netzwerkstruktur voraus und erhalten schließlich die 2D-Abbildung über den vom Strahl durchlaufenen Pfad. Dadurch können geometrische oder Texturhinweise in Bildern besser genutzt und die Lernfähigkeit und der Anwendungsbereich des Modells verbessert werden.

Wir stellen die Szene als SDF (implizites vorzeichenbehaftetes Distanzfunktionsfeld) dar, wenn die Eingabe die 3D-Koordinaten des Abtastpunkts P (die entsprechende Tiefe entlang des Strahls D) und F (die Merkmalseinbettung) sind, die aus der volumetrischen Darstellung extrahiert werden können trilineare Interpolation) kann SDF als MLP betrachtet werden, um den SDF-Wert des Abtastpunkts vorherzusagen. Hier kann F als der Kodierungscode verstanden werden, an dem sich Punkt P befindet. Dann wird die Ausgabe erhalten: N (Bedingung des Farbfelds auf der Oberflächennormalen) und H (Geometriemerkmalsvektor). Zu diesem Zeitpunkt kann das RGB des 3D-Abtastpunkts durch ein MLP mit P, D, F, N erhalten werden , H als Eingabewert und Tiefenwert und überlagern Sie dann die 3D-Abtastpunkte durch Strahlen mit dem 2D-Raum, um das Rendering-Ergebnis zu erhalten. Die Methode, Ray hier zu verwenden, ist im Grunde die gleiche wie bei Nerf.

Die Rendering-Methode muss auch den Speicherverbrauch optimieren, der hier nicht aufgeführt ist. Bei diesem Problem handelt es sich jedoch um ein kritischeres Implementierungsproblem. Der Kern der

Mask- und Rendering-Methoden besteht darin, ein vorab trainiertes Modell zu trainieren. Das vorab trainierte Modell kann auf der Grundlage der vorhergesagten Maske trainiert werden, auch ohne nachfolgende Verzweigungen. Die anschließende Arbeit des vorab trainierten Modells generiert RGB- und Tiefenvorhersagen über verschiedene Zweige und optimiert Aufgaben wie Zielerkennung/semantische Segmentierung, um Plug-and-Play-Funktionen zu erreichen:

Verlust Funktion ist nicht komplex.

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden Experimentelle Ergebnisse:

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden Vergleich mit anderen neueren Arbeiten:

Tatsächlich verwendet GAIA-1 bereits die Idee des Timing Mask AutoEncoder, aber die Überwachungsdaten sind anders A Es kann jeweils den gesamten Datenrahmen verarbeiten, UniPAD wählt jedoch zufällig einen Teil der Maske im 3D-Raum aus, um die Vorhersage zu überwachen. Ich freue mich wirklich darauf, eine Möglichkeit zu finden, beides zu kombinieren.

Darüber hinaus kann UniPAD als Versuch angesehen werden, ein multimodales Großmodell aufzubauen, bzw. als Weltmodell. Obwohl der Artikel diese nicht besonders hervorhebt.

Zusammenfassung:

Dieser Artikel sollte als relativ neue Masked Autoencoder-Methode im 3D-Bereich angesehen werden. Da die MAE-Methode in der Vortrainingsphase des Basismodells verwendet wird, unterstützt sie mehrere verschiedene Informationsmodalitäten, sodass sie natürlich auf viele nachgelagerte Feinabstimmungsaufgaben erweitert werden kann. Dies kommt der Designidee von sehr nahe LLM, das sich auf die Vorschulungsphase konzentriert, erfasst multimodale Informationen und bietet eine einheitliche Grundlage für verschiedene Aufgaben. Diese Methode bietet neue Ideen und Möglichkeiten für die Forschung im 3D-Bereich.

Diese Methode hat nicht nur Potenzial im 3D-Bereich, sondern kann auch auf den 4D-Timing-Bereich ausgeweitet werden und kann auch im Hinblick auf die Optimierung des Speichers und des Rechenvolumens viel neue Arbeit generieren und neue Ideen und Möglichkeiten für die Zukunft liefern Forschung.

Originallink: https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden

Das obige ist der detaillierte Inhalt vonUniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!