Im multimodalen Zeitalter können auch große Modelle Drohnen steuern!
Wenn das Vision-Modul die Startbedingungen erfasst, generiert das „Gehirn“ des großen Modells Aktionsanweisungen, und die Drohne kann diese dann schnell und präzise ausführen
Das intelligente Drohnenteam der Universität für Luft- und Raumfahrt Peking Unter der Leitung von Professor Zhou Yaoming haben Forscher eine verkörperte Agentenarchitektur vorgeschlagen, die auf einem multimodalen Großmodell basiert. Derzeit wird diese Struktur zur Steuerung von Drohnen verwendet. Wie funktioniert dieser neue Agent und welche Eigenschaften hat er? zu den technischen Details?
„Der Agent ist das Gehirn“
Das Forschungsteam nutzt große Modelle, um multimodale Daten zu verstehen und integriert Informationen aus mehreren Quellen wie Fotos, Töne, Sensordaten und andere Informationen aus der realen physischen Welt, um es dem Agenten zu ermöglichen Nehmen Sie die Umgebung wahr und führen Sie entsprechende Verhaltensoperationen durch
Gleichzeitig schlug das Team eine Reihe von „Agent als Großhirn, Controller als Kleinhirn“(der Agent ist das Gehirn, der Controller ist das Kleinhirn)
Kontrollarchitektur vor:Konkret geht das Forschungsteam davon aus, dass diese Errungenschaft drei Hauptbeiträge hat.
Neue Systemarchitektur, angewendet auf tatsächliche SituationenDas Forschungsteam schlug eine neue Systemarchitektur vor, die auf tatsächliche Roboter angewendet werden kann. Diese Architektur verkörpert den intelligenten Agenten, der auf dem multimodalen Großmodell basiert, als Gehirn, während der Bewegungsplaner und Controller des Roboters als Kleinhirn verkörpert sind Der Aktuator eines Roboters ähnelt einem Aktuator, beispielsweise einer menschlichen Hand.△ Abbildung 1 Hardware-Systemarchitektur
Diese Knoten sind über ROS verbunden und kommunizieren über das Abonnement und die Veröffentlichung von Nachrichten in ROS oder die Anforderung und Antwort von Diensten, was sich vom herkömmlichen End-to-End unterscheidet Roboter-Großmodellsteuerung.
Diese Architektur ermöglicht es dem Agenten, sich auf die Generierung von Befehlen auf hoher Ebene zu konzentrieren, über eine stärkere Intelligenz für Aufgaben auf hoher Ebene zu verfügen und eine bessere Robustheit und Zuverlässigkeit für die tatsächliche Ausführung zu erreichen.
Der Inhalt, der neu geschrieben werden muss, ist: △Abbildung 2 Softwaresystemarchitektur Umgeschriebener Inhalt: Die Softwaresystemarchitektur ist in Abbildung 2 dargestellt.
Neuer Agent
Unter dieser Architektur hat der Autor AeroAgent erstellt, einen intelligenten Agenten, der als Gehirn dient.
Der Agent besteht hauptsächlich aus drei Teilen:Ein multimodales Datenspeichermodul, das zum multimodalen Speicherabruf und zur Reflexion verwendet werden kann und dem Agenten die Möglichkeit gibt, mit wenigen Proben zu lernen.
Ein verkörpertes intelligentes Aktionsmodul kann eine Brücke für eine stabile Steuerung zwischen verkörperter Intelligenz und anderen Modulen auf ROS bilden. Dieses Modul bietet die Möglichkeit, über Operationen als Brücke auf andere Knoten auf ROS zuzugreifen.
Eine Brücke, die große Modelle und ROS verbindet
Um eine Brücke zwischen dem verkörperten Agenten und dem ROS-Robotersystem zu bauen, damit die vom Agenten generierten Vorgänge korrekt und stabil ausgeführt werden können Die an ROS gesendeten Informationen werden von anderen Knoten erfolgreich ausgeführt und gleichzeitig können die von anderen Knoten bereitgestellten Informationen von LMM gelesen und verstanden werden. Das Team hat ROSchain entwickelt –
Eine Brücke, die LLMs/LMMs mit ROS verbindet ROSchain leitet a Eine Reihe von Modulen und Anwendungsprogrammschnittstellen (APIs) vereinfachen die Integration großer Modelle mit Robotersensorgeräten, Ausführungseinheiten und Steuermechanismen und bieten eine stabile Middleware für intelligente Agenten für den Zugriff auf das ROS-System.Die Kamera der Drohne, insbesondere die nach unten gerichtete Kamera, ähnelt eher der Perspektive der dritten Person (Gottes Perspektive) der Organismenintelligenz
Andererseits sind die aktuellen LMMs, egal ob es sich um Modellbereitstellung oder API-Dienste handelt, Die begrenzten Rechenressourcen führen normalerweise zu einer gewissen Reaktionsverzögerung. Die Planung von UAV-Missionen ist auf ihre Schwebefähigkeit und die Fähigkeit, mit Verzögerungen umzugehen, zurückzuführen, was ein Hindernis für den Einsatz in Bereichen wie dem autonomen Fahren darstellt. Beide Punkte machen UAVs auf dem aktuellen Stand der Technik als Pioniere geeignet Entwicklung. Überprüfung relevanter Theorien und Anwendungen.
Zweitens: Derzeit arbeiten Piloten und Experten im Bereich industrieller Drohnen wie Waldbrandrettung, Land-, Forst- und Pflanzenschutz, unbemannte Beweidung, Energieinspektion usw. an tatsächlichen Einsätzen und
intelligenten Aufgaben
Ausführung zusammen mit industriellen Eigenschaften benötigen.
Drittens besteht aus der Perspektive der zukünftigen Entwicklung Multi-Agenten-Zusammenarbeit offensichtlicher Bedarf in den Bereichen Logistik, Bauwesen, Fabriken und anderen Bereichen.
In diesem Bereich eignet sich die Drohne als verkörperte Intelligenz aus „Gottes Sicht“ als Anführer des zentralen Knotens zur Aufgabenverteilung. Andere Roboter können daher als Teil des Aktuators der Drohne angesehen werden Forschung hat auch zukünftige Entwicklungsperspektiven. Das Team nutzte den Emulator von Airgen, um Simulationsexperimente durchzuführen, und wählte außerdem DRL und andere Methoden als Kontrollgruppe aus. Im Folgenden sind die experimentellen Ergebnisse aufgeführt:
Im Waldbrand-Such- und Rettungsszenario erreichte AeroAgent eine hervorragende Punktzahl von 100 Punkten unter der standardisierten Punktzahl, mit einem Durchschnitt von 2,04 Punkten pro SchrittWährend einfach LLM oder DRL aufgerufen wurde -basierte Agenten haben nur 29,4 Punkte erzielt, mit einem Durchschnitt von 0,2 pro Schritt, weniger als ein Zehntel von AeroAgent. Der Inhalt, der neu geschrieben werden muss, ist: △Bild Nr. 4-1, WaldbrandrettungsszeneBei der Landeaufgabe übertraf AeroAgent auch andere Modelle mit einer Gesamtpunktzahl von 97,4 und einer durchschnittlichen Punktzahl pro Schritt von 48,7. Der Inhalt, der neu geschrieben werden muss, ist: △Abbildung 4-2 Landungsszene auf dem MeeresvorfeldBeim Inspektionstest für Windkraftanlagen war AeroAgent direkt das einzige Modell, das die Aufgabe erfüllen konnte. △ Abbildung 4-3 Inspektionsszenario für Windkraftanlagen In der Navigationsaufgabe ist die Punktzahl jedes Schritts von AeroAgent 4.44 40-mal und fast zehnmal so hoch wie die von DRL bzw. reinem LLM muss umgeschrieben werden Der Inhalt lautet: △Abbildung 4-4 Airgen-SimulationsexperimentDas Team testete das UAV-System auch in einem realen Szenario und führte eine Fallstudie anhand eines einfachen Experiments zur Führung eingeschlossener Personen als Beispiel durch. Der Inhalt, der neu geschrieben werden muss, ist: △ Abbildung 5 Fallexperiment zur Führung gefangener MenschenDas Team basiert derzeit auf dieser Arbeit und führt Experimente mit unbemannten grasenden intelligenten Drohnen auf einer Yak-Weide auf einem Plateau durch, um die Möglichkeit zu erkunden Seine praktische Anwendung wird mit dem Ziel untersucht, „Intelligenz“ mit anderen Robotern/Multi-Roboter-Kooperationen zu verkörpern.Papieradresse: https://arxiv.org/abs/2311.15033
Das obige ist der detaillierte Inhalt vonDas Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!