QTNet: Neue zeitliche Fusionslösung für Punktwolken, Bilder und multimodale Detektoren (NeurIPS 2023)-KI-php.cn

Vorher geschrieben & persönliches Verständnis

Die Zeitreihenfusion ist ein wirksamer Weg, um die Wahrnehmungsfähigkeit der 3D-Zielerkennung beim autonomen Fahren zu verbessern. Die aktuelle Methode weist jedoch Probleme wie Kosten und Mehraufwand auf, wenn sie in tatsächlichen autonomen Fahrszenarien angewendet wird. Der neueste Forschungsartikel „Abfragebasierte explizite Bewegungs-Timing-Fusion zur 3D-Zielerkennung“ schlug eine neue Timing-Fusion-Methode in NeurIPS 2023 vor, die spärliche Abfragen als Objekt der Timing-Fusion verwendet und explizite Bewegungsinformationen verwendet, um Timing-Aufmerksamkeitsmatrizen zu generieren, an die man sich anpassen kann die Eigenschaften großräumiger Punktwolken. Diese Methode wurde von Forschern der Huazhong University of Science and Technology und Baidu vorgeschlagen und heißt QTNet: eine zeitliche Fusionsmethode zur 3D-Zielerkennung basierend auf Abfrage und expliziter Bewegung. Experimente haben gezeigt, dass QTNet nahezu ohne Mehrkosten konsistente Leistungsverbesserungen für Punktwolken, Bilder und multimodale Detektoren bewirken kann. Link zum Papier: https://openreview.net/pdf?id =gySmwdmVDF

Code Link: https://github.com/AlmoonYsl/QTNet QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Problemhintergrund
Dank der Zeitkontinuität der realen Welt können Informationen in der Zeitdimension die Wahrnehmungsinformationen vollständiger machen und dann die Genauigkeit verbessern und Robustheit der Zielerkennung können beispielsweise dazu beitragen, das Verdeckungsproblem bei der Zielerkennung zu lösen, Informationen zum Zielbewegungsstatus und zur Zielgeschwindigkeit bereitzustellen sowie Informationen zur Zielpersistenz und -konsistenz bereitzustellen. Daher ist die effiziente Nutzung von Zeitinformationen ein wichtiges Thema bei der Wahrnehmung des autonomen Fahrens. Bestehende Timing-Fusion-Methoden werden hauptsächlich in zwei Kategorien unterteilt. Ein Typ ist die Zeitreihenfusion basierend auf dichten BEV-Merkmalen (anwendbar auf Punktwolken-/Bildzeitreihenfusion), und der andere Typ ist die Zeitreihenfusion basierend auf 3D-Vorschlagsmerkmalen (hauptsächlich auf Punktwolken-Zeitreihenfusionsmethoden ausgerichtet). Da bei der zeitlichen Fusion auf BEV-Merkmalen mehr als 90 % der BEV-Punkte im Hintergrund liegen, schenkt diese Art von Methode den Vordergrundobjekten nicht mehr Aufmerksamkeit, was zu viel unnötigem Rechenaufwand und suboptimaler Leistung führt. Für den auf 3D-Vorschlag basierenden Zeitreihen-Fusionsalgorithmus werden 3D-Vorschlagsmerkmale durch zeitaufwändiges 3D-RoI-Pooling generiert. Insbesondere wenn viele Ziele und eine große Anzahl von Punktwolken vorhanden sind, ist der durch 3D-RoI-Pooling verursachte Overhead tatsächlich sehr hoch. Bei Bewerbungen ist es oft schwierig, sie anzunehmen. Darüber hinaus sind 3D-Proposal-Funktionen stark von der Proposal-Qualität abhängig, die in komplexen Szenen oft eingeschränkt ist. Daher ist es für aktuelle Methoden schwierig, eine zeitliche Fusion effizient einzuführen, um die Leistung der 3D-Zielerkennung mit äußerst geringem Overhead zu verbessern.

Wie erreicht man eine effiziente Timing-Fusion?

DETR ist ein sehr hervorragendes Zielerkennungsparadigma. Sein Abfragedesign und die Set-Prediction-Ideen realisieren effektiv ein elegantes Erkennungsparadigma ohne jegliche Nachbearbeitung. In DETR stellt jede Abfrage ein Objekt dar, und die Abfrage ist im Vergleich zu dichten Features sehr spärlich (im Allgemeinen ist die Anzahl der Abfragen auf eine relativ kleine feste Zahl festgelegt). Wenn Quey als Objekt der Timing-Fusion verwendet wird, sinkt das Problem des Rechenaufwands natürlich auf ein niedrigeres Niveau. Daher ist das Abfrageparadigma von DETR ein Paradigma, das sich natürlich für die zeitliche Fusion eignet. Die zeitliche Fusion erfordert die Konstruktion von Objektassoziationen zwischen mehreren Frames, um die Synthese zeitlicher Kontextinformationen zu erreichen. Das Hauptproblem besteht also darin, eine abfragebasierte Timing-Fusion-Pipeline aufzubauen und eine Korrelation zwischen der Abfrage und den beiden Frames herzustellen.

Aufgrund der Bewegung des eigenen Fahrzeugs in tatsächlichen Szenen sind die Punktwolken/Bilder der beiden Frames in Koordinatensystemen häufig falsch ausgerichtet, und in praktischen Anwendungen ist es unmöglich, alle historischen Frames im aktuellen Frame erneut weiterzuleiten durch das Netzwerk zur Extraktion von Merkmalen ausgerichteter Punktwolken/Bilder. Daher verwendet dieser Artikel die Speicherbank, um nur die aus historischen Frames erhaltenen Abfragemerkmale und die entsprechenden Erkennungsergebnisse zu speichern, um wiederholte Berechnungen zu vermeiden. QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Da sich Punktwolken und Bilder bei der Beschreibung von Zielmerkmalen stark unterscheiden, ist es nicht möglich, eine einheitliche zeitliche Fusionsmethode auf Merkmalsebene zu erstellen. Im dreidimensionalen Raum können jedoch sowohl die Punktwolke als auch die Bildmodalität die Korrelation zwischen benachbarten Bildern durch die geometrische Positions-/Bewegungsinformationsbeziehung des Ziels darstellen. Daher verwendet dieser Artikel die geometrische Position des Objekts und die entsprechenden Bewegungsinformationen, um die Aufmerksamkeitsmatrix des Objekts zwischen zwei Bildern zu steuern.

Einführung in die Methode
Die Kernidee von QTNet besteht darin, die Speicherbank zum Speichern der in historischen Frames erhaltenen Abfragefunktionen und der entsprechenden Erkennungsergebnisse zu verwenden, um den Mehraufwand für die wiederholte Berechnung historischer Frames zu vermeiden. Verwenden Sie zwischen zwei Abfragerahmen eine bewegungsgesteuerte Aufmerksamkeitsmatrix für die Beziehungsmodellierung

Gesamtrahmen

Wie im Framework-Diagramm gezeigt, umfasst QTNet einen 3D-Objektdetektor mit einer 3D-DETR-Struktur (LiDAR, Kamera und Multimodal sind verfügbar), eine Speicherbank und ein bewegungsgesteuertes Temporal Modeling Module (MTM) für die Timing-Fusion. QTNet erhält die Abfragemerkmale und Erkennungsergebnisse des entsprechenden Frames über den 3D-Zieldetektor der DETR-Struktur und sendet die erhaltenen Abfragemerkmale und Erkennungsergebnisse in einer FIFO-Methode (First-In, First-Out-Warteschlange) an die Speicherbank. Die Anzahl der Speicherbänke wird auf die Anzahl der Frames eingestellt, die für die Timing-Fusion erforderlich sind. Für die Timing-Fusion liest QTNet Daten aus der Speicherbank, beginnend mit dem entferntesten Moment, und verwendet das MTM-Modul, um iterativ alle Funktionen in der Speicherbank vom -Frame zum -Frame zu fusionieren, um die Abfragefunktionen des aktuellen zu verbessern Rahmen und Verfeinern des Erkennungsergebnisses entsprechend dem aktuellen Rahmen basierend auf der erweiterten Abfragefunktion.

Konkret verschmilzt QTNet die Abfragefunktionen und der -Frames mit den - und -Frames und erhält die erweiterten Abfragefunktionen der -Frames. Anschließend verschmilzt QTNet die Abfragefunktionen der Frames und . Auf diese Weise wird es durch Iteration kontinuierlich in den -Rahmen integriert. Beachten Sie, dass das hier verwendete MTM vom -Frame bis zum -Frame alle Parameter gemeinsam nutzt.

Motion Guided Attention Module

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

MTM verwendet die Mittelpunktposition des Objekts, um explizit die Aufmerksamkeitsmatrix von Frame Query und Frame Query zu generieren. Gegeben sind die Ego-Pose-Matrix und , der Mittelpunkt des Objekts und die Geschwindigkeit. Zuerst verwendet MTM die Ego-Pose und die Geschwindigkeitsinformationen der Objektvorhersage, um das Objekt im vorherigen Frame zum nächsten Frame zu bewegen und die Koordinatensysteme der beiden Frames auszurichten:

Dann übergibt der Frame-Objektmittelpunkt und den rahmenkorrigierter Mittelpunkt Konstruieren Sie eine euklidische Kostenmatrix. Um mögliche falsche Übereinstimmungen zu vermeiden, verwendet dieser Artikel außerdem die Kategorie und den Distanzschwellenwert , um die Aufmerksamkeitsmaske zu erstellen:

Die Umwandlung der Kostenmatrix in die Aufmerksamkeitsmatrix ist das ultimative Ziel

Die Aufmerksamkeitsmatrix wird verwendet. Die erweiterten Abfragefunktionen des -Frames werden verwendet, um die Timing-Funktionen zu aggregieren, um die Abfragefunktionen des -Frames zu verbessern:

Die endgültigen erweiterten Abfragefunktionen des Frames werden durch einfaches FFN auf die entsprechenden Erkennungsergebnisse verfeinert, um den Effekt einer verbesserten Erkennungsleistung zu erzielen.

Entkoppelte zeitliche Fusionsstruktur

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Es wird beobachtet, dass beim Klassifizierungs- und Regressionslernen der zeitlichen Fusion ein Ungleichgewichtsproblem besteht. Eine Lösung besteht darin, zeitliche Fusionszweige für die Klassifizierung bzw. Regression zu entwerfen. Dieser Entkopplungsansatz erhöht jedoch den Rechenaufwand und die Latenz, was für die meisten Methoden nicht akzeptabel ist. Im Gegensatz dazu nutzt QTNet ein effizientes Timing-Fusion-Design, seine Rechenkosten und Verzögerungen sind vernachlässigbar und es bietet eine bessere Leistung als das gesamte 3D-Erkennungsnetzwerk. Daher verwendet dieser Artikel die Entkopplungsmethode von Klassifizierungs- und Regressionszweigen bei der Zeitreihenfusion, um eine bessere Erkennungsleistung bei vernachlässigbaren Kosten zu erzielen, wie in der Abbildung dargestellt. Bild/Multimodalität

Nach Überprüfung des nuScenes-Datensatzes wurde festgestellt, dass QTNet 68,4 mAP und 72,2 NDS ohne Verwendung zukünftiger Informationen, TTA und Modellintegration erreichte. Im Vergleich zu MGTANet, das zukünftige Informationen verwendet, schneidet QTNet bei der zeitlichen 3-Frame-Fusion besser ab als MGTANet und verbessert 3,0 mAP bzw. 1,0 NDS. Darüber hinaus werden in diesem Artikel auch multimodale und darauf basierende Methoden untersucht Die Ringansicht wurde verifiziert und die experimentellen Ergebnisse des nuScenes-Verifizierungssatzes bewiesen die Wirksamkeit von QTNet in verschiedenen Modalitäten.

Für praktische Anwendungen ist der Kostenaufwand der Timing-Fusion sehr wichtig. In diesem Artikel werden Analysen und Experimente zu QTNet hinsichtlich Berechnungsumfang, Verzögerung und Parameterumfang durchgeführt. Die Ergebnisse zeigen, dass im Vergleich zum gesamten Netzwerk der Rechenaufwand, die Zeitverzögerungen und die Parametermengen von QTNet, die durch unterschiedliche Basislinien verursacht werden, vernachlässigbar sind, insbesondere die Berechnungsmenge verwendet nur 0,1 G FLOPs (LiDAR-Basislinie)

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Vergleich verschiedener Timing-Fusionen Paradigmen

Um die Überlegenheit des abfragebasierten Timing-Fusion-Paradigmas zu überprüfen, haben wir verschiedene repräsentative hochmoderne Timing-Fusion-Methoden zum Vergleich ausgewählt. Durch experimentelle Ergebnisse wurde festgestellt, dass der auf dem Abfrageparadigma basierende Timing-Fusion-Algorithmus effizienter ist als der auf dem BEV- und Vorschlagsparadigma basierende. Mit nur 0,1 G FLOPs und 4,5 ms Overhead zeigte QTNet eine bessere Leistung, während die Gesamtparametermenge nur 0,3 Millionen betrug 3-Frame-Zeitfusion. Experimentelle Ergebnisse zeigen, dass die einfache Verwendung von Cross Attention zur Modellierung zeitlicher Beziehungen keinen offensichtlichen Effekt hat. Bei Verwendung von MTM verbessert sich jedoch die Erkennungsleistung erheblich, was die Bedeutung einer expliziten Bewegungsführung in großräumigen Punktwolken verdeutlicht. Darüber hinaus wurde durch Ablationsexperimente festgestellt, dass das Gesamtdesign von QTNet sehr leicht und effizient ist. Bei Verwendung von 4 Datenrahmen für die Timing-Fusion beträgt die Berechnungsmenge von QTNet nur 0,24 G FLOPs und die Verzögerung beträgt nur 6,5 Millisekunden Als Cross Attention kombiniert dieser Artikel zwei Die Aufmerksamkeitsmatrix von Objekten zwischen Frames wird visualisiert, wobei dieselbe ID dasselbe Objekt zwischen zwei Frames darstellt. Es kann festgestellt werden, dass die von MTM generierte Aufmerksamkeitsmatrix (b) diskriminierender ist als die von Cross Attention generierte Aufmerksamkeitsmatrix (a), insbesondere die Aufmerksamkeitsmatrix zwischen kleinen Objekten. Dies zeigt, dass die durch explizite Bewegung gesteuerte Aufmerksamkeitsmatrix es dem Modell erleichtert, die Zuordnung von Objekten zwischen zwei Bildern durch physikalische Modellierung herzustellen. In diesem Artikel wird nur kurz auf die Frage der physikalischen Etablierung von Timing-Korrelationen bei der Timing-Fusion eingegangen. Dennoch lohnt es sich zu untersuchen, wie sich Timing-Korrelationen besser konstruieren lassen.

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Visualisierung von Erkennungsergebnissen

In diesem Artikel werden Szenensequenzen als Objekt für die visuelle Analyse von Erkennungsergebnissen verwendet. Es kann festgestellt werden, dass sich das kleine Objekt in der unteren linken Ecke ausgehend vom

-Frame schnell vom Fahrzeug entfernt, was dazu führt, dass die Basislinie das Objekt im QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

-Frame nicht erkennt. QTNet kann es jedoch weiterhin erkennen Objekt im

-Frame, was beweist, dass QTNet in der Lage ist, die Fusion zeitlich zu steuern.

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023） Zusammenfassung dieses Artikels

Dieser Artikel schlägt eine effizientere abfragebasierte zeitliche Fusionsmethode QTNet für die aktuelle 3D-Zielerkennungsaufgabe vor. Sein Hauptkern besteht aus zwei Punkten: Der eine besteht darin, spärliche Abfragen als Objekt der zeitlichen Fusion zu verwenden und historische Informationen über die Speicherbank zu speichern, und der andere besteht darin, explizite Bewegungsmodellierung zu verwenden, um die Generierung der Aufmerksamkeitsmatrix zwischen zeitlichen Abfragen zu steuern , um eine zeitliche Beziehungsmodellierung zu erreichen. Durch diese beiden Schlüsselideen kann QTNet die Timing-Fusion effizient implementieren, die auf LiDAR, Kamera und Multimodalität angewendet werden kann, und die Leistung der 3D-Zielerkennung bei vernachlässigbarem Kostenaufwand kontinuierlich verbessern.

Der Inhalt, der neu geschrieben werden muss, ist: Originallink: https://mp.weixin.qq.com/s/s9tkF_rAP2yUEkn6tp9eUQ

Das obige ist der detaillierte Inhalt vonQTNet: Neue zeitliche Fusionslösung für Punktwolken, Bilder und multimodale Detektoren (NeurIPS 2023). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!