Neuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren-KI-php.cn

Dieser Artikel wird mit Genehmigung des öffentlichen Kontos von Autonomous Driving Heart nachgedruckt. Bitte wenden Sie sich für einen Nachdruck an die Quelle.

Die persönlichen Gedanken des Autors

End-to-End ist dieses Jahr eine sehr beliebte Richtung, die auch an UniAD vergeben wurde, aber es gibt auch viele Probleme im End-to-End-Bereich, z Da die Interpretierbarkeit gering ist, die Ausbildung schwierig zu konvergieren ist usw., haben einige Wissenschaftler auf diesem Gebiet ihre Aufmerksamkeit nach und nach auf die End-to-End-Interpretierbarkeit gerichtet. Heute werde ich Ihnen die neueste Arbeit zur End-to-End-Interpretierbarkeit vorstellen, ADAPT. Diese Methode basiert auf der Transformer-Architektur und nutzt Multitasking. Die gemeinsame Trainingsmethode gibt Fahrzeugaktionsbeschreibungen und Begründungen für jede Entscheidung durchgängig aus. Einige der Gedanken des Autors zu ADAPT sind wie folgt:

Hier ist die Vorhersage mit der 2D-Funktion des Videos. Es ist möglich, dass der Effekt nach der Konvertierung der 2D-Funktion in eine Bev-Funktion besser ist In Kombination mit LLM ist dies möglicherweise besser. Beispielsweise wird der Textgenerierungsteil durch LLM ersetzt.
Die aktuelle Arbeit verwendet historische Videos als Eingabe, und die vorhergesagten Aktionen und ihre Beschreibungen sind ebenfalls historisch. Wenn dies der Fall ist, ist dies möglicherweise aussagekräftiger geändert, um zukünftige Aktionen und die Gründe für die Aktionen vorherzusagen.
Der durch die Tokenisierung des Bildes erhaltene
Token ist etwas zu viel und es können viele nutzlose Informationen vorhanden sein.

Was ist der Ausgangspunkt?

Durchgängiges autonomes Fahren hat großes Potenzial in der Transportbranche, und die Forschung in diesem Bereich ist derzeit heiß begehrt. UniAD, das beste Papier von CVPR2023, befasst sich beispielsweise mit durchgängigem automatischem Fahren. Allerdings wird die mangelnde Transparenz und Erklärbarkeit des automatisierten Entscheidungsprozesses seine Entwicklung behindern. Denn Sicherheit steht bei realen Fahrzeugen im Straßenverkehr an erster Stelle. Es gab einige frühe Versuche, Aufmerksamkeitskarten oder Kostenvolumina zu verwenden, um die Interpretierbarkeit von Modellen zu verbessern, aber diese Methoden sind schwer zu verstehen. Der Ausgangspunkt dieser Arbeit besteht also darin, eine leicht verständliche Möglichkeit zu finden, die Entscheidungsfindung zu erklären. Das Bild unten ist ein Vergleich mehrerer Methoden. Offensichtlich ist es in Worten einfacher zu verstehen.

Neuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren

Was sind die Vorteile von ADAPT?

Kann Fahrzeugaktionsbeschreibungen und Begründungen für jede Entscheidung ausgeben.

Diese Methode basiert auf der Transformatornetzwerkstruktur und führt gemeinsames Training durch Multitask-Methoden durch.
In BDD-X (Berkeley). DeepDrive eXplanation) erzielte einen SOTA-Effekt auf den Datensatz.
Um die Wirksamkeit des Systems in realen Szenarien zu überprüfen, wurde ein einsetzbares System eingerichtet, das das Originalvideo eingeben und die Beschreibung und Begründung der Aktion in realen Situationen ausgeben kann Zeit. ;

Effektanzeige

Neuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren Der Effekt ist immer noch sehr gut, besonders in der dritten dunklen Nachtszene fallen die Ampeln auf.

Aktueller Fortschritt auf diesem Gebiet

Videountertitelung

Das Hauptziel der Videobeschreibung besteht darin, die Objekte und ihre Beziehungen in einem bestimmten Video in natürlicher Sprache zu beschreiben. Frühe Forschungsarbeiten generierten Sätze mit spezifischen syntaktischen Strukturen, indem identifizierte Elemente in feste Vorlagen eingefügt wurden, die unflexibel waren und denen es an Fülle mangelte.

Um natürliche Sätze mit flexiblen syntaktischen Strukturen zu generieren, verwenden einige Methoden Sequenzlerntechniken. Konkret nutzen diese Methoden Video-Encoder zum Extrahieren von Funktionen und Sprachdecoder zum Erlernen der visuellen Textausrichtung. Um Beschreibungen umfangreicher zu gestalten, verwenden diese Methoden auch Darstellungen auf Objektebene, um detaillierte objektbewusste Interaktionsfunktionen in Videos zu erhalten.

Obwohl bestehende Architekturen bestimmte Ergebnisse in der allgemeinen Richtung der Videountertitelung erzielt haben, können sie aus einfachen Gründen nicht direkt auf die Darstellung von Aktionen angewendet werden Durch die Übertragung von Videobeschreibungen auf Darstellungen autonomer Fahrhandlungen gehen einige wichtige Informationen verloren, wie z. B. Fahrzeuggeschwindigkeit usw., die für autonome Fahraufgaben von entscheidender Bedeutung sind. Wie diese multimodalen Informationen effektiv zur Bildung von Sätzen genutzt werden können, wird noch untersucht. PaLM-E leistet gute Arbeit in multimodalen Sätzen.

Durchgängiges autonomes Fahren

Lernbasiertes autonomes Fahren ist ein aktives Forschungsfeld. Der jüngste CVPR2023-Best-Paper UniAD, einschließlich des nachfolgenden FusionAD, und Wayves Arbeit basierend auf dem Weltmodell MILE arbeiten alle in diese Richtung. Das Ausgabeformat umfasst Flugbahnpunkte wie UniAD und direkte Fahrzeugaktionen wie MILE.

Darüber hinaus modellieren einige Methoden das zukünftige Verhalten von Verkehrsteilnehmern wie Fahrzeugen, Radfahrern oder Fußgängern, um die Wegpunkte des Fahrzeugs vorherzusagen, während andere Methoden die Steuersignale des Fahrzeugs direkt auf der Grundlage von Sensoreingaben vorhersagen, ähnlich der Teilaufgabe „Vorhersage von Steuersignalen“ in diese Arbeit

Interpretierbarkeit des autonomen Fahrens

Im Bereich des autonomen Fahrens basieren die meisten Interpretationsmethoden auf Vision, einige basieren auf LiDAR-Arbeit. Einige Methoden nutzen Aufmerksamkeitskarten, um unbedeutende Bildbereiche herauszufiltern und so das Verhalten autonomer Fahrzeuge nachvollziehbar und erklärbar erscheinen zu lassen. Die Aufmerksamkeitskarte kann jedoch einige weniger wichtige Regionen enthalten. Es gibt auch Methoden, die Lidar- und hochpräzise Karten als Eingabe verwenden, die Begrenzungsrahmen anderer Verkehrsteilnehmer vorhersagen und Ontologie verwenden, um den Entscheidungsprozess zu erklären. Darüber hinaus gibt es eine Möglichkeit, Online-Karten durch Segmentierung zu erstellen, um die Abhängigkeit von HD-Karten zu verringern. Obwohl visionäre oder Lidar-basierte Methoden gute Ergebnisse liefern können, lässt das Fehlen einer verbalen Erklärung das gesamte System komplex und schwer verständlich erscheinen. Eine Studie untersucht erstmals die Möglichkeit der Textinterpretation für autonome Fahrzeuge, indem Videofunktionen offline extrahiert werden, um Steuersignale vorherzusagen und die Aufgabe der Videobeschreibung auszuführen.

Multitasking-Lernen beim autonomen Fahren. End-Framework Multitasking-Lernen wird übernommen, um das Modell gemeinsam mit den beiden Aufgaben Textgenerierung und Vorhersage von Steuersignalen zu trainieren. Multitasking-Lernen wird häufig beim autonomen Fahren eingesetzt. Aufgrund einer besseren Datennutzung und gemeinsamer Funktionen verbessert das gemeinsame Training verschiedener Aufgaben die Leistung jeder Aufgabe. Daher wird in dieser Arbeit das gemeinsame Training der beiden Aufgaben der Steuersignalvorhersage und der Textgenerierung verwendet.

ADAPT-Methode

Das Folgende ist das Netzwerkstrukturdiagramm:

Die gesamte Struktur ist in zwei Aufgaben unterteilt: Neuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren

Driving Caption Generation (DCG): Videos eingeben, zwei Sätze ausgeben, den ersten Satz Beschreibung: Die Aktion des Autos, der zweite Satz beschreibt die Gründe für diese Aktion, z. B. „Das Auto beschleunigt, weil die Ampel grün wird“

Unter diesen teilen sich die beiden Aufgaben von DCG und CSP den Video-Encoder, verwenden jedoch unterschiedliche Vorhersageköpfe, um unterschiedliche Endausgaben zu erzeugen.

Für die DCG-Aufgabe wird der Vision-Language-Transformer-Encoder verwendet, um zwei Sätze in natürlicher Sprache zu generieren.

Für CSP-Aufgaben verwenden Sie den Bewegungstransformations-Encoder, um die Reihenfolge der Steuersignale vorherzusagen.

Video-Encoder. Der Video-Swin-Transformer wird hier verwendet, um die eingegebenen Videobilder in Video-Feature-Tokens umzuwandeln.

Eingabe 桢Bild, die Form ist

, die Größe des Features ist

, wobei die Dimension des Kanals ist darüber Feature Nach der Tokenisierung werden Video-Tokens mit Abmessungen

erhalten, und dann wird ein MLP verwendet, um die Abmessungen anzupassen, um sie an die Einbettung von Text-Tokens anzupassen, und dann werden die Text-Tokens und Video-Tokens der Vision zugeführt -Sprachtransformator-Encoder zusammen, um Aktionsbeschreibungen und Begründungen zu generieren.

Steuersignal-Vorhersagekopf

und der Eingang

桢Video entsprechen dem Steuersignal

. Jedes Steuersignal ist hier nicht unbedingt eindimensional, sondern kann mehrdimensional sein -dimensional, wie Geschwindigkeit, Beschleunigung, Richtung usw. gleichzeitig. Der Ansatz hier besteht darin, die Videofunktionen zu tokenisieren und über den Bewegungstransformator eine Reihe von Ausgangssignalen zu generieren. Es ist zu beachten, dass der erste Frame hier nicht enthalten ist, da der erste Frame bereitgestellt wird ist zu wenig dynamische Informationen

Gemeinsames Training

In diesem Rahmen wird aufgrund des gemeinsam genutzten Video-Encoders tatsächlich davon ausgegangen, dass die beiden Aufgaben von CSP und DCG auf der Ebene der Videodarstellung aufeinander abgestimmt sind. Der Ausgangspunkt ist, dass Aktionsbeschreibungen und Steuersignale unterschiedliche Ausdrücke feinkörniger Fahrzeugaktionen sind und sich Erklärungen zur Aktionsbegründung hauptsächlich auf die Fahrumgebung konzentrieren, die die Fahrzeugaktionen beeinflusst. Training mit gemeinsamem Training

Es ist zu beachten, dass es sich zwar um einen gemeinsamen Trainingsplatz handelt, dieser jedoch während der Inferenz leicht verständlich ist. Die Videos werden direkt gemäß dem Flussdiagramm eingegeben Ausgabesteuerung Das Signal reicht für die DCG-Aufgabe aus, die Beschreibung und Begründung wird Wort für Wort basierend auf der autoregressiven Methode generiert, beginnend bei [CLS] und endend bei [SEP] die Längenschwelle.

Experimentelles Design und Vergleich

Datensatz

Der verwendete Datensatz ist BDD-X. Dieser Datensatz enthält 7000 gepaarte Videos und Steuersignale. Jedes Video dauert etwa 40 Sekunden, die Bildgröße beträgt und die Frequenz beträgt FPS. Jedes Video weist 1 bis 5 Fahrzeugverhalten auf, z. B. Beschleunigen, Rechtsabbiegen und Zusammenfahren. Alle diese Aktionen wurden mit Text kommentiert, einschließlich Handlungserzählungen (z. B. „Das Auto hielt an“) und Begründungen (z. B. „Weil die Ampel rot war“). Insgesamt gibt es etwa 29.000 Verhaltensanmerkungspaare.

Spezifische Implementierungsdetails

Der Video-Swin-Transformator ist auf Kinetics-600 vorab trainiert.
Vision-Sprachtransformator und Bewegungstransformator werden zufällig initialisiert. bis zum Ende Die
-Eingabevideobildgröße wird in der Größe geändert und zugeschnitten, und die endgültige Eingabe in das Netzwerk ist 224x224
Zur Beschreibung und Begründung werden WordPiece-Einbettungen [75] anstelle ganzer Wörter verwendet (z. B. „stoppt“) Auf „Stopp“ und „#s“ zugeschnitten, beträgt die maximale Länge jedes Satzes 15 Wenn ein Wort zum [MASK]-Token wird, besteht eine Wahrscheinlichkeit von 10 %, dass ein Wort zufällig ausgewählt wird, und die verbleibende Wahrscheinlichkeit von 10 % bleibt unverändert.
Der AdamW-Optimierer wird verwendet und in den ersten 10 % der Trainingsschritte gibt es einen Aufwärmmechanismus
Das Training mit 4 V100-GPUs dauert etwa 13 Stunden
Die Auswirkungen des gemeinsamen Trainings

Drei Experimente werden hier verglichen, um die Wirksamkeit des gemeinsamen Trainings zu veranschaulichen. Single

bezieht sich auf das Entfernen der CSP-Aufgabe und das Beibehalten nur der DCG-Aufgabe, was dem Training nur des Untertitelmodells entspricht Die Aufgabe ist immer noch nicht vorhanden, aber wenn Sie das DCG-Modul eingeben, müssen Sie zusätzlich zum Video-Tag auch das Steuersignal-Tag eingeben Der Argumentationseffekt ist deutlich besser. Obwohl der Effekt bei einem Steuersignaleingang verbessert wird, ist er immer noch nicht so gut wie der Effekt beim Hinzufügen einer CSP-Aufgabe. Nach dem Hinzufügen der CSP-Aufgabe ist die Fähigkeit, das Video auszudrücken und zu verstehen, stärker

Darüber hinaus zeigt die folgende Tabelle auch, dass sich auch die Wirkung des gemeinsamen Trainings auf CSP verbessert.

Hier

kann so verstanden werden Genauigkeit, insbesondere wird das vorhergesagte Steuersignal abgeschnitten und die Formel lautet wie folgt

Neuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren

Der Einfluss verschiedener Arten von Steuersignalen

Im Experiment werden Geschwindigkeit und Kurs als grundlegende Signale verwendet. Experimente ergaben jedoch, dass die Wirkung bei Verwendung nur eines der Signale nicht so gut ist wie bei der gleichzeitigen Verwendung beider Signale. Die spezifischen Daten sind in der folgenden Tabelle aufgeführt:

Neuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren

Dies zeigt, dass die beiden Signale Geschwindigkeit und Richtung können dem Netzwerk helfen, die Handlungsbeschreibung und Argumentation besser zu lernen

Interaktion zwischen Handlungsbeschreibung und Argumentation Neuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren

Im Vergleich zu allgemeinen Beschreibungsaufgaben besteht die Generierung von Fahrbeschreibungsaufgaben aus zwei Sätzen, nämlich Handlungsbeschreibung und Argumentation. Dies kann der folgenden Tabelle entnommen werden:

Die Zeilen 1 und 3 zeigen, dass die Wirkung der Queraufmerksamkeit besser ist, was leicht zu verstehen ist und für das Modelltraining von Vorteil ist Austauschschlussfolgerung Die Reihenfolge von Beschreibung und Beschreibung ist ebenfalls nicht in Ordnung, was zeigt, dass die Argumentation von der Beschreibung abhängt

Der Einfluss der Abtastraten Neuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren

Dieses Ergebnis lässt sich erraten. Je mehr Frames verwendet werden, desto besser wird das Ergebnis, aber die entsprechende Geschwindigkeit wird auch langsamer, wie in der folgenden Tabelle gezeigt

Das obige ist der detaillierte Inhalt vonNeuer Titel: ADAPT: Eine vorläufige Untersuchung der Erklärbarkeit von End-to-End-Autonomem Fahren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!