Lassen Sie uns über mehrere große Modelle und autonome Fahrkonzepte sprechen, die in letzter Zeit populär geworden sind.-KI-php.cn

Verschiedene Anwendungen großer Modelle erfreuen sich in letzter Zeit immer noch großer Beliebtheit. Etwa Anfang Oktober erschien eine Reihe eher effekthascherischer Artikel, in denen versucht wurde, große Modelle auf das autonome Fahren anzuwenden. Ich habe in letzter Zeit mit vielen Freunden über viele verwandte Themen gesprochen. Beim Schreiben dieses Artikels habe ich einerseits festgestellt, dass wir in der Vergangenheit tatsächlich einige sehr verwandte, aber tatsächlich unterschiedliche Konzepte verwechselt haben Andererseits ist es eine Erweiterung dieser Konzepte. Es gibt einige interessante Gedanken, die es wert sind, mit allen geteilt und diskutiert zu werden.

Großes (Sprach-)Modell

Dies ist derzeit zweifellos die beliebteste Richtung und steht auch im Mittelpunkt der konzentriertesten Artikel. Wie können große Sprachmodelle beim autonomen Fahren helfen? Einerseits bietet es wie GPT-4V äußerst leistungsstarke semantische Verständnisfähigkeiten durch die Ausrichtung mit Bildern, die hier vorerst nicht erwähnt werden, andererseits nutzt es LLM als Agent, um das Fahrverhalten direkt umzusetzen. Letzteres ist derzeit tatsächlich die sexyste Forschungsrichtung und untrennbar mit der Reihe der Arbeiten zur eingebetteten KI verbunden.

Bei den meisten der letztgenannten Arten von Arbeiten, die bisher beobachtet wurden, kommt LLM zum Einsatz: 1) wird direkt verwendet, 2) wird durch überwachtes Lernen verfeinert, und 3) wird durch bestärkendes Lernen für Fahraufgaben verfeinert. Im Wesentlichen gibt es keinen Ausweg aus dem bisherigen Paradigmenrahmen des auf Lernmethoden basierenden Fahrens. Tatsächlich ist eine sehr direkte Frage: Warum ist es möglicherweise besser, hierfür LLM zu nutzen? Intuitiv gesehen ist die Verwendung von Worten zum Fahren eine ineffiziente und ausführliche Sache. Dann habe ich eines Tages plötzlich herausgefunden, dass LLM tatsächlich eine Vorschulung für den Agenten durch Sprache implementiert! Einer der wichtigen Gründe, warum es für RL bisher schwierig war, zu verallgemeinern, war, dass es schwierig war, verschiedene Aufgaben zu vereinheitlichen und verschiedene gemeinsame Daten für das Vortraining zu verwenden, aber LLM hat es sehr gut gelöst Frage. Tatsächlich gibt es jedoch mehrere Probleme, die nicht gut gelöst sind: 1) Muss die Sprache nach Abschluss des Pretrains als Ausgabeschnittstelle beibehalten werden? Dies bringt bei vielen Aufgaben tatsächlich große Unannehmlichkeiten mit sich und führt in gewissem Maße auch zu redundanten Berechnungen. 2) Der Ansatz von LLM als Agent überwindet immer noch nicht die wesentlichen Probleme der bestehenden modellfreien RL-Methode, und alle Probleme modellfreier Methoden bestehen weiterhin. In letzter Zeit haben wir auch einige Versuche mit modellbasiertem + LLM als Agent gesehen, was eine interessante Richtung sein könnte.

Das Letzte, worüber ich mich in jedem Artikel beschweren möchte, ist:

Es geht nicht nur darum, eine Verbindung zu LLM herzustellen und LLM einen Grund ausgeben zu lassen, um Ihr Modell interpretierbar zu machen. Dieser Grund kann immer noch Unsinn sein. . . Dinge, die vorher nicht garantiert waren, werden nicht garantiert, nur weil ein Satz ausgegeben wird.

Großes (visuelles) Modell

Rein großes visuelles Modell hat diesen magischen Moment des „Auftauchens“ tatsächlich noch nicht erlebt. Wenn es um große visuelle Modelle geht, gibt es im Allgemeinen zwei mögliche Referenzen: Die eine ist ein äußerst leistungsstarker Extraktor für visuelle Informationsmerkmale, der auf massiven Webdaten-Vorschulungen wie CLIP, DINO oder SAM basiert und das semantische Verständnis des Modells erheblich verbessert ; Das andere bezieht sich auf das gemeinsame Modell von Paaren (Bild, Aktion usw.), das durch das von GAIA dargestellte Weltmodell implementiert wird.

Tatsächlich denke ich, dass ersteres nur das Ergebnis einer kontinuierlichen linearen Skalierung entlang der traditionellen Grundsätze ist. Derzeit ist es schwierig, die Möglichkeit quantitativer Veränderungen beim autonomen Fahren zu erkennen. Tatsächlich ist Letzteres aufgrund der kontinuierlichen Publizität von Wayve und Tesla in diesem Jahr kontinuierlich in das Blickfeld der Forscher gerückt. Wenn von Weltmodellen gesprochen wird, wird häufig die Tatsache einbezogen, dass das Modell durchgängig ist (Aktionen direkt ausgibt) und mit LLM in Zusammenhang steht. Tatsächlich ist diese Annahme einseitig. Mein Verständnis des Weltmodells ist ebenfalls sehr begrenzt. Ich möchte Lecuns Interview und die modellbasierte RL-Umfrage empfehlen, auf die ich nicht weiter eingehen werde:

Yu Yang: Lernen über das Umweltmodell (Weltmodell)

//m.sbmmt.com/link/a2cdd86a458242d42a17c2bf4feff069

Rein visuelles autonomes Fahren

Das ist eigentlich leicht zu verstehen und bezieht sich auf ein autonomes Fahrsystem, das nur auf visuelle Sensoren angewiesen ist. Das ist tatsächlich der beste und ultimative Wunsch des autonomen Fahrens: mit einem Augenpaar wie ein Mensch zu fahren. Solche Konzepte werden im Allgemeinen mit den beiden oben genannten großen Modellen in Verbindung gebracht, da die komplexe Semantik von Bildern starke Abstraktionsfähigkeiten erfordert, um nützliche Informationen zu extrahieren. Im Rahmen der jüngsten kontinuierlichen Werbeoffensive von Tesla überschneidet sich dieses Konzept auch mit dem unten erwähnten End-to-End. Tatsächlich gibt es jedoch viele Möglichkeiten, rein visuelles Fahren zu erreichen, und End-to-End ist natürlich eine davon, aber nicht die einzige. Das schwierigste Problem bei der Realisierung rein visuellen autonomen Fahrens besteht darin, dass das Sehen von Natur aus unempfindlich gegenüber 3D-Informationen ist, und große Modelle haben dies nicht wesentlich geändert. Dies spiegelt sich insbesondere wider in: 1) Die Art und Weise, wie elektromagnetische Wellen passiv empfangen werden, macht das Sehen anders als andere Sensoren, die geometrische Informationen im 3D-Raum messen können. 2) Die Perspektive macht entfernte Objekte äußerst fehleranfällig. Dies ist sehr unfreundlich für die nachgelagerte Planung und Steuerung, die standardmäßig in einem 3D-Raum mit gleichen Fehlern implementiert ist. Ist das Fahren mit Sicht jedoch dasselbe wie die Fähigkeit, Entfernung und Geschwindigkeit in 3D genau einzuschätzen? Ich denke, dass dies ein Darstellungsproblem ist, das zusätzlich zum semantischen Verständnis einer eingehenden Untersuchung im rein visuellen autonomen Fahren würdig ist.

End-to-End-Autonomes Fahren

Dieses Konzept bezieht sich auf das Steuersignal vom Sensor zum endgültigen Ausgang (tatsächlich denke ich, dass es im Großen und Ganzen auch Wegpunktinformationen für die Planung auf der vorgelagerten Ebene umfassen kann) mithilfe einer gemeinsamen Optimierung Modell. Dies kann entweder eine direkte End-to-End-Methode sein, die wie ALVINN bereits in den 1980er Jahren Sensordaten einspeist und Steuersignale direkt über ein neuronales Netzwerk ausgibt, oder es kann eine abgestufte End-to-End-Methode wie die diesjährige CVPR-Beste sein Papier UniAD. Ein gemeinsamer Punkt dieser Methoden ist jedoch, dass das Downstream-Überwachungssignal direkt an den Upstream weitergeleitet werden kann, anstatt dass jedes Modul seine eigenen selbstdefinierten Optimierungsziele hat. Insgesamt ist dies eine richtige Idee, denn Deep Learning ist auf eine solche gemeinsame Optimierung angewiesen, um Erfolg zu haben. Bei Systemen wie autonomem Fahren oder Allzweckrobotern, die oft äußerst komplex sind und mit der physischen Welt zu tun haben, müssen jedoch viele Probleme hinsichtlich der technischen Umsetzung sowie der Datenorganisation und -nutzungseffizienz überwunden werden.

Feed-Forward End-to-End-Autonomes Fahren

Dieses Konzept scheint selten erwähnt zu werden, aber tatsächlich finde ich, dass die Existenz von End-to-End selbst wertvoll ist, aber das Problem darin liegt, die Verwendung zu beobachten dieses Feed-Forward-Weges. Tatsächlich habe ich, mich eingeschlossen, immer davon ausgegangen, dass die End-to-End-Fahrt in Form von Feed-Forward erfolgen muss, da 99 % der aktuellen Deep-Learning-basierten Methoden eine solche Struktur annehmen, was bedeutet, dass die Endausgabe besorgniserregend ist (z. B. Steuersignale)u = f(x), x sind die verschiedenen Beobachtungen des Sensors. Dabei kann f eine sehr komplexe Funktion sein. Tatsächlich hoffen wir jedoch, dass die endgültige Ausgabe bei einigen Problemen bestimmte Eigenschaften erfüllt oder ihnen nahe kommt, sodass es für die Feed-Forward-Form schwierig ist, eine solche Garantie zu geben. Es gibt also eine andere Möglichkeit, u* = argmin g(u, x) s.t h(u, x)

Mit der Entwicklung großer Modelle hat diese direkte Feed-Forward-End-to-End-Lösung für autonomes Fahren eine Welle der Wiederbelebung eingeläutet. Natürlich sind große Modelle sehr leistungsstark, aber ich stelle eine Frage und hoffe, dass jeder darüber nachdenkt: Wenn das große Modell durchgehend allmächtig ist, bedeutet das, dass das große Modell in der Lage sein sollte, Go/Gobang-Ende zu spielen? -bis zum Ende? Paradigmen wie AlphaGo sollten bedeutungslos sein? Ich glaube, jeder weiß, dass die Antwort Nein ist. Natürlich kann diese Feed-Forward-Methode als schneller Näherungslöser verwendet werden und in den meisten Szenarien gute Ergebnisse erzielen.

Nach den verschiedenen Lösungen zu urteilen, die ihre Verwendung des Neural Planner offengelegt haben, bietet der neuronale Teil nur eine Reihe von Initialisierungsvorschlägen für nachfolgende Optimierungslösungen, um das Problem der stark nicht konvexen Optimierung bei nachfolgenden Optimierungen zu lindern. Dies ist im Wesentlichen dasselbe wie der schnelle Rollout in AlphaGo. Aber AlphaGo wird die anschließende MCTS-Durchsuchung nicht als „Vertuschungslösung“ bezeichnen. . .

Abschließend hoffe ich, dass dies allen dabei helfen kann, die Unterschiede und Zusammenhänge zwischen diesen Konzepten zu verdeutlichen und dass jeder bei der Diskussion von Problemen klar verstehen kann, worüber er spricht. . .

Lassen Sie uns über mehrere große Modelle und autonome Fahrkonzepte sprechen, die in letzter Zeit populär geworden sind.

Originallink: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

Das obige ist der detaillierte Inhalt vonLassen Sie uns über mehrere große Modelle und autonome Fahrkonzepte sprechen, die in letzter Zeit populär geworden sind.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!