arXiv-Artikel „ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries“, hochgeladen am 2. August 22, gemeinsam erstellt von der Tsinghua University, Shanghai (Yao) Qizhi Research Institute, CMU, Fudan, Li Auto und MIT, usw. Arbeit.
Die bestehende Pipeline für autonomes Fahren trennt das Wahrnehmungsmodul vom Vorhersagemodul. Die beiden Module kommunizieren über manuell ausgewählte Funktionen wie Agentenboxen und Trajektorien als Schnittstellen. Aufgrund dieser Trennung erhält das Vorhersagemodul nur Teilinformationen vom Wahrnehmungsmodul. Schlimmer noch: Fehler des Wahrnehmungsmoduls können sich ausbreiten und anhäufen, was sich negativ auf die Vorhersageergebnisse auswirkt.
Diese Arbeit schlägt ViP3D vor, eine visuelle Pipeline zur Flugbahnvorhersage, die die umfangreichen Informationen des Originalvideos nutzt, um die zukünftige Flugbahn des Agenten in der Szene vorherzusagen. ViP3D verwendet in der gesamten Pipeline eine spärliche Agentenabfrage, wodurch sie vollständig differenzierbar und interpretierbar ist. Darüber hinaus wird ein neuer Bewertungsindex für die Aufgabe der durchgängigen visuellen Flugbahnvorhersage vorgeschlagen, End-to-end Prediction Accuracy (EPA, End-to-end Prediction Accuracy), der die Wahrnehmung und Vorhersagegenauigkeit umfassend berücksichtigt Gleichzeitig werden die Vorhersagegenauigkeiten anhand der Ground-Truth-Trajektorien bewertet.
Das Bild zeigt den Vergleich zwischen der herkömmlichen mehrstufigen Kaskadenpipeline und ViP3D: Die herkömmliche Pipeline umfasst mehrere nicht differenzierbare Module wie Erkennung, Verfolgung und Vorhersage. ViP3D verwendet Multi-View-Videos als Eingabe und generiert vorhergesagte Trajektorien Durchgängige Nutzung visueller Informationen, beispielsweise von Fahrzeugblinkern.
ViP3D zielt darauf ab, das Problem der Flugbahnvorhersage von Originalvideos durchgängig zu lösen. Konkret sagt ViP3D anhand eines Multi-View-Videos und einer hochauflösenden Karte die zukünftigen Flugbahnen aller Agenten in der Szene voraus.
Der Gesamtprozess von ViP3D ist in der Abbildung dargestellt: Zunächst verarbeitet der abfragebasierte Tracker Multiview-Videos von umgebenden Kameras, um die Abfrage des verfolgten Agenten mit visuellen Funktionen zu erhalten. Die visuellen Merkmale in der Agentenabfrage erfassen die Bewegungsdynamik und visuellen Eigenschaften der Agenten sowie die Beziehungen zwischen Agenten. Danach nimmt der Trajektorienvorhersager die Abfrage des Tracking-Agenten als Eingabe, ordnet sie den HD-Kartenfunktionen zu und gibt schließlich die vorhergesagte Trajektorie aus.
Der abfragebasierte Tracker extrahiert visuelle Merkmale aus dem Rohvideo der Surround-Kamera. Insbesondere werden für jeden Frame Bildmerkmale gemäß DETR3D extrahiert. Für die Aggregation von Zeitdomänenmerkmalen wird ein abfragebasierter Tracker gemäß MOTR („Motr: End-to-end multiple-object tracking with transformator“. arXiv 2105.03247, 2021) entwickelt, der zwei wichtige Schritte umfasst: Aktualisierung der Abfragefunktionen und Abfrageüberwachung. Die Agentenabfrage wird im Laufe der Zeit aktualisiert, um die Bewegungsdynamik des Agenten zu modellieren.
Die meisten vorhandenen Methoden zur Flugbahnvorhersage können in drei Teile unterteilt werden: Agentenkodierung, Kartenkodierung und Flugbahndekodierung. Nach der abfragebasierten Verfolgung wird die Abfrage des verfolgten Agenten abgerufen, die als die durch Agentenkodierung erhaltenen Agenteneigenschaften betrachtet werden kann. Daher sind die verbleibenden Aufgaben die Kartenkodierung und die Trajektoriendekodierung.
Stellen Sie die Vorhersage- und Wahrheitsagenten als ungeordnete Mengen Sˆ bzw. S dar, wobei jeder Agent durch die Agentenkoordinaten des aktuellen Zeitschritts und K mögliche zukünftige Trajektorien dargestellt wird. Berechnen Sie für jeden Agententyp c die Vorhersagegenauigkeit zwischen Scˆ und Sc. Die Kosten zwischen dem vorhergesagten Agenten und dem wahren Agenten sind definiert als:
Der EPA zwischen Scˆ und Sc ist definiert als:
Die experimentellen Ergebnisse sind wie folgt:
Hinweis: Dieses Zielrendering ist gut gelungen.
Das obige ist der detaillierte Inhalt vonViP3D: Durchgängige visuelle Flugbahnvorhersage durch 3D-Agentenabfrage. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!