In diesem Artikel wird eine Methode zur genauen Generierung von Straßenansichtsbildern mit mehreren Ansichten mithilfe des BEV-Skizzenlayouts vorgestellt.
Im Bereich des autonomen Fahrens wird die Bildsynthese häufig verwendet, um die Leistung nachgelagerter Wahrnehmungsaufgaben zu verbessern.
In diesem Bereich von Computer Vision, Verbesserung der Wahrnehmung Eine seit langem bestehende Forschungsherausforderung bei der Modellleistung wird durch synthetische Bilder erreicht. In visionszentrierten autonomen Fahrsystemen, die Multi-View-Kameras verwenden, wird dieses Problem noch deutlicher, da einige Long-Tail-Szenen nie erfasst werden können. Wie in Abbildung 1 (a) dargestellt, gibt die vorhandene Generierungsmethode die ein semantische BEV-Struktur im Segmentierungsstil in das Generierungsnetzwerk und gibt sinnvolle Mehransichtsbilder aus. Bei ausschließlicher Auswertung anhand von Metriken auf Szenenebene scheinen bestehende Methoden in der Lage zu sein, fotorealistische Street View-Bilder zu synthetisieren. Beim Vergrößern stellten wir jedoch fest, dass keine genauen Details auf Objektebene erzeugt werden konnten. In der Abbildung zeigen wir einen häufigen Fehler moderner Generierungsalgorithmen, der darin besteht, dass das generierte Fahrzeug im Vergleich zum Ziel-3D-Begrenzungsrahmen vollständig in die entgegengesetzte Richtung ausgerichtet ist. Darüber hinaus ist die Bearbeitung der BEV-Struktur des semantischen Segmentierungsstils eine schwierige Aufgabe und erfordert viel Arbeitskraft
Daher schlagen wir eine zweistufige Methode namens BEVControl vor, um eine feinere Hintergrund- und Vordergrund-Geometriesteuerung bereitzustellen, wie in Abbildung 1 dargestellt (B). BEVControl unterstützt die Eingabe von BEV-Strukturen im Skizzenstil und ermöglicht so eine schnelle und einfache Bearbeitung. Darüber hinaus zerlegt unser BEVControl die visuelle Konsistenz in zwei Unterziele: geometrische Konsistenz zwischen Straßenansichten und Vogelperspektive durch den Controller; visuelle Konsistenz zwischen Straßenansichten durch den Koordinator
Papierlink:
https:// m.sbmmt.com/link/1531beb762df4029513ebf9295e0d34f
BEVControl ist ein strukturiertes UNet-Generierungsnetzwerk, das aus einer Reihe von Modulzusammensetzungen besteht. Jedes Modul besteht aus zwei Elementen, nämlich Controller und Koordinator. Eingabe: BEV-Skizze, Multi-View-Rauschenbild und Textaufforderung zur einfachen Bearbeitung;
Koordinator: Nutzt einen neuartigen Cross-View- und Element-Aufmerksamkeitsmechanismus, um eine Cross-View-Kontextinteraktion zu erreichen und Street-View-Funktionen mit einheitlichem Erscheinungsbild auszugeben.
Der Inhalt, der umgeschrieben werden muss , Zhou B. Generieren von Street View-Bildern aus der Vogelperspektive[J] arXiv preprint arXiv:2301.04634, 2023.
Das obige ist der detaillierte Inhalt vonDetailliertere Hintergrund- und Vordergrundsteuerung, schnellere Bearbeitung: der zweistufige Ansatz von BEVControl. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!