Dieses Papier untersucht das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren, insbesondere wie man effektiv von der Perspektivansicht (PV) zum Vogelperspektivenraum (BEV) wechselt Transformationsfunktionen: Diese Transformation wird durch das Visual Transformation (VT)-Modul implementiert. Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und Aufmerksamkeitsgewichte für die Entsprechung zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht dies die Komplexität der Berechnung und Bereitstellung.
Der Artikel weist darauf hin, dass bestehende Methoden wie HeightFormer und FB-BEV versuchen, diese beiden VT-Strategien zu kombinieren, diese Methoden jedoch aufgrund der unterschiedlichen Merkmalstransformationen der dualen VT normalerweise eine zweistufige Strategie anwenden durch die anfängliche Funktionsleistung begrenzt. Dies behindert die nahtlose Integration zwischen zwei VTs. Darüber hinaus stehen diese Methoden immer noch vor Herausforderungen, wenn es darum geht, autonomes Fahren in Echtzeit umzusetzen.
Als Reaktion auf diese Probleme schlägt das Papier eine einheitliche Methode zur Merkmalskonvertierung vor, die für die visuelle Konvertierung von 2D in 3D und von 3D in 2D geeignet ist, und bewertet die Entsprechung zwischen 3D- und 2D-Merkmalen durch drei Wahrscheinlichkeitsmessungen: BEV-Wahrscheinlichkeit, Projektionswahrscheinlichkeit und Bild Wahrscheinlichkeit. Diese neue Methode zielt darauf ab, die Auswirkungen leerer Bereiche im BEV-Gitter auf die Feature-Konstruktion zu mildern, mehrere Entsprechungen zu unterscheiden und Hintergrund-Features während des Feature-Konvertierungsprozesses auszuschließen.
Durch die Anwendung dieser einheitlichen Merkmalstransformation untersucht der Artikel eine neue Methode der visuellen 3D-zu-2D-Transformation unter Verwendung von Convolutional Neural Networks (CNN) und stellt eine Methode namens HeightTrans vor. Es demonstriert nicht nur seine überlegene Leistung, sondern zeigt auch das Potenzial für Beschleunigung durch Vorberechnung, wodurch es für Anwendungen im autonomen Fahren in Echtzeit geeignet ist. Gleichzeitig wird durch die Integration dieser Merkmalstransformation der traditionelle LSS-Prozess verbessert und seine Universalität für aktuelle Detektoren demonstriert.
Durch die Kombination von HeightTrans und Prob-LSS stellt das Papier DualBEV vor, eine innovative Methode, die die Entsprechungen von BEV und perspektivischen Ansichten in einem Schritt berücksichtigt und zusammenführt und so die Abhängigkeit von anfänglichen Merkmalen beseitigt. Darüber hinaus wird ein leistungsstarkes BEV-Feature-Fusion-Modul namens Dual Feature Fusion (DFF)-Modul vorgeschlagen, um die BEV-Wahrscheinlichkeitsvorhersage durch die Nutzung von Kanalaufmerksamkeitsmodulen und räumlichen Aufmerksamkeitsmodulen weiter zu verfeinern. DualBEV folgt dem Prinzip „umfangreiche Eingabe, strikte Ausgabe“ und versteht und stellt die Wahrscheinlichkeitsverteilung der Szene dar, indem es eine präzise probabilistische Korrespondenz mit zwei Ansichten verwendet.
Die Hauptbeiträge des Artikels lauten wie folgt:
Durch diese Innovationen schlägt das Papier eine neue Strategie vor, um die Einschränkungen bestehender Methoden zu überwinden und eine effizientere und genauere Objekterkennung in Echtzeit-Anwendungsszenarien wie dem autonomen Fahren zu erreichen.
Die in diesem Artikel vorgeschlagene Methode zielt darauf ab, das BEV-Objekterkennungsproblem (Vogelperspektive) beim autonomen Fahren durch ein einheitliches Feature-Konvertierungs-Framework, DualBEV, zu lösen. Nachfolgend finden Sie den Hauptinhalt des Abschnitts „Methoden“ mit einem Überblick über die verschiedenen Unterabschnitte und wichtigsten Neuerungen.
Der Verarbeitungsablauf von DualBEV beginnt mit den Bildfunktionen , die von mehreren Kameras erhalten wurden, und verwendet dann SceneNet, um Instanzmasken und Tiefenkarten zu generieren. Anschließend erfolgt die Extraktion über das HeightTrans-Modul und Prob-LSS Pipeline- und Transformationsfunktionen, und schließlich werden diese Funktionen zusammengeführt und verwendet, um die Wahrscheinlichkeitsverteilung des BEV-Raums vorherzusagen, um die endgültigen BEV-Funktionen für nachfolgende Aufgaben zu erhalten.
HeightTrans basiert auf dem Prinzip der visuellen Konvertierung von 3D in 2D, indem 3D-Positionen ausgewählt und in den Bildraum projiziert werden und diese 3D-2D-Entsprechungen ausgewertet werden. Diese Methode tastet zunächst eine Reihe von 3D-Punkten in einer vordefinierten BEV-Karte ab und berücksichtigt und filtert dann diese Korrespondenzen sorgfältig, um BEV-Features zu generieren. HeightTrans erhöht die Aufmerksamkeit auf kleine Objekte und löst das durch Hintergrundpixel verursachte irreführende Problem durch die Anwendung einer Multi-Resolution-Sampling-Strategie und einer Wahrscheinlichkeits-Sampling-Methode. Darüber hinaus wird das Problem des leeren BEV-Gitters durch die Einführung der BEV-Wahrscheinlichkeit gelöst . Das HeightTrans-Modul ist eine der in der Arbeit vorgeschlagenen Schlüsseltechnologien und konzentriert sich auf die Verarbeitung und Transformation von Merkmalen durch visuelle Transformation (VT) von 3D in 2D. Es basiert auf der Auswahl von 3D-Standorten aus einer vordefinierten BEV-Karte (Bird's Eye View) und der Projektion dieser Standorte in den Bildraum, wodurch die Entsprechung zwischen 3D und 2D bewertet wird. Im Folgenden finden Sie eine detaillierte Einführung in die Funktionsweise von HeightTrans:
Die HeightTrans-Methode verwendet bei der Höhenverarbeitung eine Abtaststrategie mit mehreren Auflösungen, die den gesamten Höhenbereich (von -5 Metern bis 3 Metern) abdeckt Interessengebiet Die Auflösung innerhalb des ROI (definiert als -2 Meter bis 2 Meter) beträgt 0,5 Meter und die Auflösung außerhalb dieses Bereichs beträgt 1,0 Meter. Diese Strategie trägt dazu bei, die Konzentration auf kleine Objekte zu erhöhen, die bei der Abtastung mit gröberer Auflösung möglicherweise übersehen werden.
HeightTrans übernimmt die folgenden Schritte beim probabilistischen Sampling:
Prob-LSS für jedes BEV-Netz vorhersagt. Es wird in den BEV-Raum projiziert. Diese Methode integriert BEV-Wahrscheinlichkeiten weiter, um LSS-Merkmale über die folgende Formel zu erstellen:
Das DFF-Modul wurde entwickelt, um Features von HeightTrans und Prob-LSS zu fusionieren und die BEV-Wahrscheinlichkeit effektiv vorherzusagen. Durch die Kombination des Kanalaufmerksamkeitsmoduls und des durch räumliche Aufmerksamkeit erweiterten ProbNet ist DFF in der Lage, die Merkmalsauswahl und die BEV-Wahrscheinlichkeitsvorhersage zu optimieren, um die Darstellung von nahen und entfernten Objekten zu verbessern. Diese Fusionsstrategie berücksichtigt die Komplementarität der Merkmale der beiden Streams und erhöht gleichzeitig die Genauigkeit der BEV-Wahrscheinlichkeit durch Berechnung der lokalen und globalen Aufmerksamkeit.
Wenn die Anzahl der Eingaberahmen auf zwei Rahmen erhöht wird, wird die Leistung von DualBEV weiter verbessert, wobei mAP 38,0 % und NDS 50,4 % erreicht. Dies ist der höchste NDS unter allen aufgeführten Methoden, was darauf hinweist, dass DualBEV bei der Verarbeitung umfassender ist komplexere Eingaben die Szene verstehen. Unter den Multi-Frame-Methoden zeigt es auch eine starke Leistung bei mATE, mASE und mAAE, insbesondere eine deutliche Verbesserung bei maOE, was seinen Vorteil bei der Schätzung von Objektrichtungen zeigt.
Anhand dieser Ergebnisse kann analysiert werden, dass DualBEV und seine Varianten bei mehreren wichtigen Leistungsindikatoren gut abschneiden, insbesondere in der Multi-Frame-Einstellung, was darauf hinweist, dass es eine gute Genauigkeit und Genauigkeit für BEV-Objekterkennungsaufgaben aufweist. Darüber hinaus unterstreichen diese Ergebnisse auch die Bedeutung der Verwendung von Multi-Frame-Daten zur Verbesserung der Gesamtleistung und Schätzgenauigkeit des Modells.
Das Folgende ist eine Analyse der Ergebnisse jedes Ablationsexperiments:
Ablationsexperimente zeigen, dass Komponenten und Strategien wie HeightTrans, probabilistische Maßnahmen, Prob-Sampling und DFF entscheidend für die Verbesserung der Modellleistung sind. Darüber hinaus beweist auch die Verwendung einer Multi-Resolution-Sampling-Strategie für Höheninformationen ihre Wirksamkeit. Diese Ergebnisse stützen das Argument der Autoren, dass jede der im Methodenteil vorgestellten Techniken positiv zur Modellleistung beiträgt.
Dieser Artikel demonstriert die Leistung seiner Methode anhand einer Reihe von Ablationsexperimenten. Aus den experimentellen Ergebnissen geht hervor, dass das in der Arbeit vorgeschlagene DualBEV-Framework und seine verschiedenen Komponenten einen positiven Einfluss auf die Verbesserung der Genauigkeit der Objekterkennung aus der Vogelperspektive (BEV) haben.
Die Methode des Papiers führt schrittweise die Module ProbNet, HeightTrans, CAF (Channel Attention Fusion) und SAE (Spatial Attention Enhanced) in das Basismodell ein und zeigt signifikante Verbesserungen sowohl bei den mAP- als auch bei den NDS-Indikatoren spielt eine wichtige Rolle in der Gesamtarchitektur. Insbesondere nach der Einführung von SAE stieg der NDS-Score auf den Höchstwert von 42,5 %, während die Verzögerung nur geringfügig zunahm, was zeigt, dass die Methode ein gutes Gleichgewicht zwischen Genauigkeit und Verzögerung erreicht.
Die experimentellen Ergebnisse der probabilistischen Ablation bestätigen weiterhin die Bedeutung der Projektionswahrscheinlichkeit, der Bildwahrscheinlichkeit und der BEV-Wahrscheinlichkeit für die Verbesserung der Erkennungsleistung. Wenn diese Wahrscheinlichkeiten nacheinander eingeführt werden, verbessern sich die mAP- und NDS-Werte des Systems stetig, was zeigt, wie wichtig es ist, diese Wahrscheinlichkeitsmaße in die BEV-Objekterkennungsaufgabe zu integrieren.
Im Vergleich von visuellen Transformationsoperationen (VT) zeigt die in der Arbeit vorgeschlagene Prob-Sampling-Methode im Vergleich zu anderen Operationen wie SCAda und Bilinear-Sampling eine geringere Latenz und einen höheren NDS-Score, was ihre Leistung in Bezug auf Effizienz und Leistungsvorteile hervorhebt . Darüber hinaus kann bei unterschiedlichen Höhen-Sampling-Strategien die Anwendung einer Multi-Resolution-Strategie (MR) anstelle einer einheitlichen Sampling-Strategie den NDS-Score weiter verbessern, was zeigt, wie wichtig es ist, Informationen in unterschiedlichen Höhen in der Szene zu berücksichtigen, um die Erkennungsleistung zu verbessern.
Darüber hinaus zeigt das Papier für verschiedene Feature-Fusion-Strategien, dass die DFF-Methode immer noch hohe NDS-Scores aufrechterhalten und gleichzeitig das Modell vereinfachen kann, was bedeutet, dass die Fusion von Dual-Stream-Features in einem einstufigen Verarbeitungsfluss effektiv ist.
Obwohl die in der Arbeit vorgeschlagene Methode in vielen Aspekten eine gute Leistung erbringt, führt jede Verbesserung auch zu einer Erhöhung der Systemkomplexität und der Rechenkosten. Beispielsweise erhöht sich die Latenz des Systems jedes Mal, wenn eine neue Komponente eingeführt wird (z. B. ProbNet, HeightTrans usw.). Obwohl die Erhöhung der Latenz subtil ist, ist dies bei Anwendungen mit Echtzeit- oder niedrigen Latenzanforderungen der Fall könnte eine Überlegung werden. Darüber hinaus tragen probabilistische Maßnahmen zwar zu Leistungsverbesserungen bei, erfordern aber auch zusätzliche Rechenressourcen, um diese Wahrscheinlichkeiten abzuschätzen, was möglicherweise zu einem höheren Ressourcenverbrauch führt.
Die in der Arbeit vorgeschlagene DualBEV-Methode hat bemerkenswerte Ergebnisse bei der Verbesserung der Genauigkeit und umfassenden Leistung der BEV-Objekterkennung erzielt, insbesondere durch die Kombination der neuesten Fortschritte im Deep Learning mit der visuellen Transformationstechnologie. Allerdings gehen diese Fortschritte mit einer leicht erhöhten Rechenlatenz und einem höheren Ressourcenverbrauch einher, und praktische Anwendungen müssen diese Faktoren von Fall zu Fall abwägen.
Diese Methode funktioniert gut bei der BEV-Objekterkennungsaufgabe und verbessert die Genauigkeit und Gesamtleistung erheblich. Durch die Einführung von probabilistischem Sampling, Höhentransformation, Aufmerksamkeitsmechanismus und räumlichem Aufmerksamkeitserweiterungsnetzwerk verbessert DualBEV erfolgreich mehrere wichtige Leistungsindikatoren, insbesondere die Genauigkeit der Vogelperspektive (BEV) und das Szenenverständnis. Experimentelle Ergebnisse zeigen, dass die Methode des Papiers besonders effektiv bei der Verarbeitung komplexer Szenen und Daten aus verschiedenen Perspektiven ist, was für autonomes Fahren und andere Echtzeitüberwachungsanwendungen von entscheidender Bedeutung ist.
Das obige ist der detaillierte Inhalt vonDualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!