Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren-KI-php.cn

Im multimodalen Zeitalter können auch große Modelle Drohnen steuern!

Wenn das Vision-Modul die Startbedingungen erfasst, generiert das „Gehirn“ des großen Modells Aktionsanweisungen, und die Drohne kann diese dann schnell und präzise ausführen

Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Das intelligente Drohnenteam der Universität für Luft- und Raumfahrt Peking Unter der Leitung von Professor Zhou Yaoming haben Forscher eine verkörperte Agentenarchitektur vorgeschlagen, die auf einem multimodalen Großmodell basiert. Derzeit wird diese Struktur zur Steuerung von Drohnen verwendet. Wie funktioniert dieser neue Agent und welche Eigenschaften hat er? zu den technischen Details?

„Der Agent ist das Gehirn“

Das Forschungsteam nutzt große Modelle, um multimodale Daten zu verstehen und integriert Informationen aus mehreren Quellen wie Fotos, Töne, Sensordaten und andere Informationen aus der realen physischen Welt, um es dem Agenten zu ermöglichen Nehmen Sie die Umgebung wahr und führen Sie entsprechende Verhaltensoperationen durch Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Gleichzeitig schlug das Team eine Reihe von „Agent als Großhirn, Controller als Kleinhirn“

(der Agent ist das Gehirn, der Controller ist das Kleinhirn)

Kontrollarchitektur vor:

Der Entscheidungsprozess des Agenten als Gehirn wird vom Prozessor generiert, der sich auf die Generierung von Verhaltensweisen auf hoher Ebene konzentriert. Umgeschriebener Satz: Als Entscheidungsgenerator des Gehirns konzentriert sich der Agent auf die Generierung von Verhaltensweisen auf hoher Ebene.

Als Bewegungscontroller des Kleinhirns besteht die Hauptverantwortung des Controllers darin, Verhaltensweisen auf hoher Ebene (z. B. erwartete Zielpunkte) in Befehlssysteme auf niedriger Ebene umzuwandeln (z. B. Rotorgeschwindigkeit)

Konkret geht das Forschungsteam davon aus, dass diese Errungenschaft drei Hauptbeiträge hat.

Neue Systemarchitektur, angewendet auf tatsächliche Situationen

Das Forschungsteam schlug eine neue Systemarchitektur vor, die auf tatsächliche Roboter angewendet werden kann. Diese Architektur verkörpert den intelligenten Agenten, der auf dem multimodalen Großmodell basiert, als Gehirn

, während der Bewegungsplaner und Controller des Roboters als Kleinhirn verkörpert sind Der Aktuator eines Roboters ähnelt einem Aktuator, beispielsweise einer menschlichen Hand.

△ Abbildung 1 Hardware-Systemarchitektur

Diese Knoten sind über ROS verbunden und kommunizieren über das Abonnement und die Veröffentlichung von Nachrichten in ROS oder die Anforderung und Antwort von Diensten, was sich vom herkömmlichen End-to-End unterscheidet Roboter-Großmodellsteuerung.

Diese Architektur ermöglicht es dem Agenten, sich auf die Generierung von Befehlen auf hoher Ebene zu konzentrieren, über eine stärkere Intelligenz für Aufgaben auf hoher Ebene zu verfügen und eine bessere Robustheit und Zuverlässigkeit für die tatsächliche Ausführung zu erreichen. Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Der Inhalt, der neu geschrieben werden muss, ist: △Abbildung 2 Softwaresystemarchitektur Umgeschriebener Inhalt: Die Softwaresystemarchitektur ist in Abbildung 2 dargestellt.

Neuer Agent

Unter dieser Architektur hat der Autor AeroAgent erstellt, einen intelligenten Agenten, der als Gehirn dient. Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Der Agent besteht hauptsächlich aus drei Teilen:

Ein Modul zur automatischen Plangenerierung, das über multimodale Wahrnehmungs- und Überwachungsfunktionen verfügt und im Standby-Modus gut für die Bewältigung von Notfällen geeignet ist.

Ein multimodales Datenspeichermodul, das zum multimodalen Speicherabruf und zur Reflexion verwendet werden kann und dem Agenten die Möglichkeit gibt, mit wenigen Proben zu lernen.

Ein verkörpertes intelligentes Aktionsmodul kann eine Brücke für eine stabile Steuerung zwischen verkörperter Intelligenz und anderen Modulen auf ROS bilden. Dieses Modul bietet die Möglichkeit, über Operationen als Brücke auf andere Knoten auf ROS zuzugreifen.

Gleichzeitig sind zum Abschließen einer Aktion möglicherweise mehrere Interaktionen erforderlich, um die zum Ausführen der Aktion erforderlichen Parameter vom Sensor zu erhalten und sicherzustellen, dass der Agent bestimmte Aktionen basierend auf einem umfassenden Situationsbewusstsein und den Aktoren stabil ausgeben kann Es besitzt
Der Inhalt, der neu geschrieben werden muss, ist: △Abbildung 3 AeroAgent-Modularchitektur Umgeschriebener Inhalt: △Abbildung 3 Architekturdesign des AeroAgent-Moduls

Eine Brücke, die große Modelle und ROS verbindet

Um eine Brücke zwischen dem verkörperten Agenten und dem ROS-Robotersystem zu bauen, damit die vom Agenten generierten Vorgänge korrekt und stabil ausgeführt werden können Die an ROS gesendeten Informationen werden von anderen Knoten erfolgreich ausgeführt und gleichzeitig können die von anderen Knoten bereitgestellten Informationen von LMM gelesen und verstanden werden. Das Team hat ROSchain entwickelt – Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Eine Brücke, die LLMs/LMMs mit ROS verbindet

ROSchain leitet a Eine Reihe von Modulen und Anwendungsprogrammschnittstellen (APIs) vereinfachen die Integration großer Modelle mit Robotersensorgeräten, Ausführungseinheiten und Steuermechanismen und bieten eine stabile Middleware für intelligente Agenten für den Zugriff auf das ROS-System.

Warum Drohnen wählen? Das Forschungsteam nannte drei Gründe, warum es sich für Drohnen entschieden hat, um Tests und Simulationen dieser Systemarchitektur durchzuführen. Die verkörperte Intelligenz in Bereichen wie humanoiden Robotern ähnelt der Ich-Perspektive mit Menschen als Subjekt.

Die Kamera der Drohne, insbesondere die nach unten gerichtete Kamera, ähnelt eher der Perspektive der dritten Person (Gottes Perspektive) der Organismenintelligenz

Andererseits sind die aktuellen LMMs, egal ob es sich um Modellbereitstellung oder API-Dienste handelt, Die begrenzten Rechenressourcen führen normalerweise zu einer gewissen Reaktionsverzögerung. Die Planung von UAV-Missionen ist auf ihre Schwebefähigkeit und die Fähigkeit, mit Verzögerungen umzugehen, zurückzuführen, was ein Hindernis für den Einsatz in Bereichen wie dem autonomen Fahren darstellt. Beide Punkte machen UAVs auf dem aktuellen Stand der Technik als Pioniere geeignet Entwicklung. Überprüfung relevanter Theorien und Anwendungen.

Zweitens

: Derzeit arbeiten Piloten und Experten im Bereich industrieller Drohnen wie Waldbrandrettung, Land-, Forst- und Pflanzenschutz, unbemannte Beweidung, Energieinspektion usw. an tatsächlichen Einsätzen und

intelligenten Aufgaben

Ausführung zusammen mit industriellen Eigenschaften benötigen.

Drittens besteht aus der Perspektive der zukünftigen Entwicklung Multi-Agenten-Zusammenarbeit offensichtlicher Bedarf in den Bereichen Logistik, Bauwesen, Fabriken und anderen Bereichen.

In diesem Bereich eignet sich die Drohne als verkörperte Intelligenz aus „Gottes Sicht“ als Anführer des zentralen Knotens zur Aufgabenverteilung. Andere Roboter können daher als Teil des Aktuators der Drohne angesehen werden Forschung hat auch zukünftige Entwicklungsperspektiven. Das Team nutzte den Emulator von Airgen, um Simulationsexperimente durchzuführen, und wählte außerdem DRL und andere Methoden als Kontrollgruppe aus. Im Folgenden sind die experimentellen Ergebnisse aufgeführt:

Im Waldbrand-Such- und Rettungsszenario erreichte AeroAgent eine hervorragende Punktzahl von 100 Punkten unter der standardisierten Punktzahl, mit einem Durchschnitt von 2,04 Punkten pro Schritt

Während einfach LLM oder DRL aufgerufen wurde -basierte Agenten haben nur 29,4 Punkte erzielt, mit einem Durchschnitt von 0,2 pro Schritt, weniger als ein Zehntel von AeroAgent.

Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Der Inhalt, der neu geschrieben werden muss, ist: △Bild Nr. 4-1, Waldbrandrettungsszene

Bei der Landeaufgabe übertraf AeroAgent auch andere Modelle mit einer Gesamtpunktzahl von 97,4 und einer durchschnittlichen Punktzahl pro Schritt von 48,7.

Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Der Inhalt, der neu geschrieben werden muss, ist: △Abbildung 4-2 Landungsszene auf dem Meeresvorfeld

Beim Inspektionstest für Windkraftanlagen war AeroAgent direkt das einzige Modell, das die Aufgabe erfüllen konnte.

Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

△ Abbildung 4-3 Inspektionsszenario für Windkraftanlagen

In der Navigationsaufgabe ist die Punktzahl jedes Schritts von AeroAgent 4.44 40-mal und fast zehnmal so hoch wie die von DRL bzw. reinem LLM

Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

muss umgeschrieben werden Der Inhalt lautet: △Abbildung 4-4 Airgen-Simulationsexperiment

Das Team testete das UAV-System auch in einem realen Szenario und führte eine Fallstudie anhand eines einfachen Experiments zur Führung eingeschlossener Personen als Beispiel durch.

Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Der Inhalt, der neu geschrieben werden muss, ist: △ Abbildung 5 Fallexperiment zur Führung gefangener Menschen

Das Team basiert derzeit auf dieser Arbeit und führt Experimente mit unbemannten grasenden intelligenten Drohnen auf einer Yak-Weide auf einem Plateau durch, um die Möglichkeit zu erkunden Seine praktische Anwendung wird mit dem Ziel untersucht, „Intelligenz“ mit anderen Robotern/Multi-Roboter-Kooperationen zu verkörpern.

Papieradresse: https://arxiv.org/abs/2311.15033 Das Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren

Das obige ist der detaillierte Inhalt vonDas Team der Universität Beihang schlägt eine neue Architektur der verkörperten Intelligenz vor, um die Steuerung großer Drohnen zu realisieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!