Verschiedene Anwendungen großer Modelle erfreuen sich in letzter Zeit immer noch großer Beliebtheit. Etwa Anfang Oktober erschien eine Reihe eher effekthascherischer Artikel, in denen versucht wurde, große Modelle auf das autonome Fahren anzuwenden. Ich habe in letzter Zeit mit vielen Freunden über viele verwandte Themen gesprochen. Beim Schreiben dieses Artikels habe ich einerseits festgestellt, dass wir in der Vergangenheit tatsächlich einige sehr verwandte, aber tatsächlich unterschiedliche Konzepte verwechselt haben Andererseits ist es eine Erweiterung dieser Konzepte. Es gibt einige interessante Gedanken, die es wert sind, mit allen geteilt und diskutiert zu werden.
Dies ist derzeit zweifellos die beliebteste Richtung und steht auch im Mittelpunkt der konzentriertesten Artikel. Wie können große Sprachmodelle beim autonomen Fahren helfen? Einerseits bietet es wie GPT-4V äußerst leistungsstarke semantische Verständnisfähigkeiten durch die Ausrichtung mit Bildern, die hier vorerst nicht erwähnt werden, andererseits nutzt es LLM als Agent, um das Fahrverhalten direkt umzusetzen. Letzteres ist derzeit tatsächlich die sexyste Forschungsrichtung und untrennbar mit der Reihe der Arbeiten zur eingebetteten KI verbunden.
Bei den meisten der letztgenannten Arten von Arbeiten, die bisher beobachtet wurden, kommt LLM zum Einsatz: 1) wird direkt verwendet, 2) wird durch überwachtes Lernen verfeinert, und 3) wird durch bestärkendes Lernen für Fahraufgaben verfeinert. Im Wesentlichen gibt es keinen Ausweg aus dem bisherigen Paradigmenrahmen des auf Lernmethoden basierenden Fahrens. Tatsächlich ist eine sehr direkte Frage: Warum ist es möglicherweise besser, hierfür LLM zu nutzen? Intuitiv gesehen ist die Verwendung von Worten zum Fahren eine ineffiziente und ausführliche Sache. Dann habe ich eines Tages plötzlich herausgefunden, dass LLM tatsächlich eine Vorschulung für den Agenten durch Sprache implementiert! Einer der wichtigen Gründe, warum es für RL bisher schwierig war, zu verallgemeinern, war, dass es schwierig war, verschiedene Aufgaben zu vereinheitlichen und verschiedene gemeinsame Daten für das Vortraining zu verwenden, aber LLM hat es sehr gut gelöst Frage. Tatsächlich gibt es jedoch mehrere Probleme, die nicht gut gelöst sind: 1) Muss die Sprache nach Abschluss des Pretrains als Ausgabeschnittstelle beibehalten werden? Dies bringt bei vielen Aufgaben tatsächlich große Unannehmlichkeiten mit sich und führt in gewissem Maße auch zu redundanten Berechnungen. 2) Der Ansatz von LLM als Agent überwindet immer noch nicht die wesentlichen Probleme der bestehenden modellfreien RL-Methode, und alle Probleme modellfreier Methoden bestehen weiterhin. In letzter Zeit haben wir auch einige Versuche mit modellbasiertem + LLM als Agent gesehen, was eine interessante Richtung sein könnte.
Das Letzte, worüber ich mich in jedem Artikel beschweren möchte, ist:Es geht nicht nur darum, eine Verbindung zu LLM herzustellen und LLM einen Grund ausgeben zu lassen, um Ihr Modell interpretierbar zu machen. Dieser Grund kann immer noch Unsinn sein. . . Dinge, die vorher nicht garantiert waren, werden nicht garantiert, nur weil ein Satz ausgegeben wird.
//m.sbmmt.com/link/a2cdd86a458242d42a17c2bf4feff069
Dieses Konzept bezieht sich auf das Steuersignal vom Sensor zum endgültigen Ausgang (tatsächlich denke ich, dass es im Großen und Ganzen auch Wegpunktinformationen für die Planung auf der vorgelagerten Ebene umfassen kann) mithilfe einer gemeinsamen Optimierung Modell. Dies kann entweder eine direkte End-to-End-Methode sein, die wie ALVINN bereits in den 1980er Jahren Sensordaten einspeist und Steuersignale direkt über ein neuronales Netzwerk ausgibt, oder es kann eine abgestufte End-to-End-Methode wie die diesjährige CVPR-Beste sein Papier UniAD. Ein gemeinsamer Punkt dieser Methoden ist jedoch, dass das Downstream-Überwachungssignal direkt an den Upstream weitergeleitet werden kann, anstatt dass jedes Modul seine eigenen selbstdefinierten Optimierungsziele hat. Insgesamt ist dies eine richtige Idee, denn Deep Learning ist auf eine solche gemeinsame Optimierung angewiesen, um Erfolg zu haben. Bei Systemen wie autonomem Fahren oder Allzweckrobotern, die oft äußerst komplex sind und mit der physischen Welt zu tun haben, müssen jedoch viele Probleme hinsichtlich der technischen Umsetzung sowie der Datenorganisation und -nutzungseffizienz überwunden werden.
Dieses Konzept scheint selten erwähnt zu werden, aber tatsächlich finde ich, dass die Existenz von End-to-End selbst wertvoll ist, aber das Problem darin liegt, die Verwendung zu beobachten dieses Feed-Forward-Weges. Tatsächlich habe ich, mich eingeschlossen, immer davon ausgegangen, dass die End-to-End-Fahrt in Form von Feed-Forward erfolgen muss, da 99 % der aktuellen Deep-Learning-basierten Methoden eine solche Struktur annehmen, was bedeutet, dass die Endausgabe besorgniserregend ist (z. B. Steuersignale)u = f(x), x sind die verschiedenen Beobachtungen des Sensors. Dabei kann f eine sehr komplexe Funktion sein. Tatsächlich hoffen wir jedoch, dass die endgültige Ausgabe bei einigen Problemen bestimmte Eigenschaften erfüllt oder ihnen nahe kommt, sodass es für die Feed-Forward-Form schwierig ist, eine solche Garantie zu geben. Es gibt also eine andere Möglichkeit, u* = argmin g(u, x) s.t h(u, x)
Mit der Entwicklung großer Modelle hat diese direkte Feed-Forward-End-to-End-Lösung für autonomes Fahren eine Welle der Wiederbelebung eingeläutet. Natürlich sind große Modelle sehr leistungsstark, aber ich stelle eine Frage und hoffe, dass jeder darüber nachdenkt: Wenn das große Modell durchgehend allmächtig ist, bedeutet das, dass das große Modell in der Lage sein sollte, Go/Gobang-Ende zu spielen? -bis zum Ende? Paradigmen wie AlphaGo sollten bedeutungslos sein? Ich glaube, jeder weiß, dass die Antwort Nein ist. Natürlich kann diese Feed-Forward-Methode als schneller Näherungslöser verwendet werden und in den meisten Szenarien gute Ergebnisse erzielen.
Nach den verschiedenen Lösungen zu urteilen, die ihre Verwendung des Neural Planner offengelegt haben, bietet der neuronale Teil nur eine Reihe von Initialisierungsvorschlägen für nachfolgende Optimierungslösungen, um das Problem der stark nicht konvexen Optimierung bei nachfolgenden Optimierungen zu lindern. Dies ist im Wesentlichen dasselbe wie der schnelle Rollout in AlphaGo. Aber AlphaGo wird die anschließende MCTS-Durchsuchung nicht als „Vertuschungslösung“ bezeichnen. . . Abschließend hoffe ich, dass dies allen dabei helfen kann, die Unterschiede und Zusammenhänge zwischen diesen Konzepten zu verdeutlichen und dass jeder bei der Diskussion von Problemen klar verstehen kann, worüber er spricht. . . Originallink: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_ADas obige ist der detaillierte Inhalt vonLassen Sie uns über mehrere große Modelle und autonome Fahrkonzepte sprechen, die in letzter Zeit populär geworden sind.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!