北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案-AI-php.cn

北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案

WBOY

リリース： 2023-12-15 10:49:10

転載

1284 人が閲覧しました

マルチモーダル時代に突入、大型機種でもドローンの制御が可能に！

ビジョンモジュールが開始条件を捕捉すると、大型モデルの「頭脳」が動作指示を生成し、ドローンがその指示を迅速かつ正確に実行できるようになります。

北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案

周耀明教授率いる北京航空航天大学のインテリジェントドローンチームの研究者らは、マルチモーダル大型モデルに基づいた具現化インテリジェンスアーキテクチャを提案しました

現在、この構造は無人機の制御に使用されています航空機この新しいインテリジェントエージェントはどのように機能しますか? 技術的な詳細は何ですか?

「エージェントは脳である」北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案

研究チームは大規模モデルを使用してマルチモーダルデータを理解し、実際の物理世界の写真、音、センサーデータなどのマルチソース情報を統合しています。エージェントは周囲の環境を認識し、それに対応した行動操作を実行できます。

同時に、チームは「大脳としてのエージェント、小脳としてのコントローラー」というセットを提案しました(エージェントは脳であり、コントローラーは小脳です)

の制御アーキテクチャ:

インテリジェントエージェントは、脳の意思決定生成者として、高レベルの行動を生成することに重点を置いています。書き換えられた文: 脳の意思決定生成者として、エージェントは高レベルの動作の生成に焦点を当てます

小脳の運動コントローラーとして、コントローラーの主な責任は高レベルの動作 (次のような) を生成することです。具体的には、研究チームは、この成果には主に 3 つの貢献があると考えています。

実際の状況に適用できる新しいシステムアーキテクチャ

研究チームは、実際のロボットに適用できる新しいシステムアーキテクチャを提案しました。このアーキテクチャは、マルチモーダル大規模モデルに基づく知的エージェントを脳に具現化し、ロボットの動作プランナーとコントローラーを小脳に具現化します。ロボットの知覚システムは人間の目、耳などに類似しています。情報収集ロボットのアクチュエーターは人間の手などのアクチュエーターに似ています。

△図 1 ハードウェアシステムアーキテクチャ

これらのノードは ROS を介して接続され、ROS でのメッセージのサブスクリプションとパブリケーション、またはリクエストとレスポンスを通じて通信します。従来のエンドツーエンドのロボット大規模モデル制御とは異なります。

このアーキテクチャにより、エージェントは高レベルのコマンドの生成に集中し、高レベルのタスクに対してよりインテリジェントになり、実際の実行の堅牢性と信頼性が向上します。

北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案

#書き換えが必要な内容は以下のとおりです。 △図 2 ソフトウェアシステムアーキテクチャ書き換えられた内容: ソフトウェアシステムアーキテクチャを図 2 に示します。

新しいエージェント

このアーキテクチャの下で、著者は頭脳として機能するインテリジェントエージェントである AeroAgent を構築しました。

エージェントは主に 3 つの部分で構成されています: 北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案

自動計画生成モジュール。マルチモーダルなセンシングおよび監視機能があり、スタンバイモードでの緊急事態の処理に優れています。

マルチモーダルメモリの取得と反映に使用できるマルチモーダルデータメモリモジュール。これにより、エージェントは少ないサンプルで学習できるようになります。

具体化されたインテリジェントアクションモジュールは、具体化されたインテリジェンスと ROS 上の他のモジュール間の安定した制御のためのブリッジを確立できます。このモジュールは、ブリッジとしての操作を使用して ROS 上の他のノードにアクセスする機能を提供します。

同時に、アクションを完了するには、エージェントが包括的な状況に基づいてアクションを実行できるようにするために、アクションの実行に必要なパラメータをセンサーから取得するために複数のインタラクションが必要になる場合があります。特定のアクションの安定した出力

#書き直す必要がある内容は次のとおりです: △ 図 3 AeroAgent モジュールのアーキテクチャ書き換えられた内容: △図 3 AeroAgent モジュールのアーキテクチャ設計
大規模モデルと ROS を接続するブリッジ

身体化されたエージェントと ROS ロボットシステムの間にブリッジを構築するために、エージェントにオペレーションを生成させます。 ROS に正しく安定して送信でき、他のノードによって正常に実行されると同時に、他のノードから提供された情報を LMM が読み取って理解できるようになります。チームは ROSchain を設計しました -

LLM の組み合わせ/ LMM ROS 北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案

ROSchain を接続するブリッジは、一連のモジュールとアプリケーションプログラムインターフェイス (API) を介して、大規模モデルとロボットセンシングデバイス、実行ユニット、制御メカニズムの統合を簡素化し、エージェントが ROS にアクセスする方法を提供します。システム、安定したミドルウェア。

ドローンを選択する理由

研究チームは、システムアーキテクチャのテストとシミュレーションを行うためにドローンを選択した理由を 3 つ説明しました。

まず第一に、Web のほとんどの今日の LMM に含まれるスケール世界の知識は三人称視点のものであり、人型ロボットなどの分野における身体化された知能は、人間を主体とした一人称視点に似ています。 ドローンのカメラ、特に下向きのカメラは、生物知能の三人称視点(神の視点)に近いです

一方、現段階のLMMは、モデルのデプロイメントであれ API サービスであれ、通常はコンピューティングリソースによって制限され、応答にある程度の遅れが生じます。

UAV のミッション計画は、ホバリング能力と遅延に対処する能力によるものですが、これは自動運転などの分野での応用の障害となります

これら 2 つの点の両方が、 UAV は、関連する理論や応用を検証する先駆者として適しています。

2つ目

、現在、山火事救助、農林植物保護、無人放牧、電力検査などの産業用ドローンの分野で、パイロットと専門家が実際の現場と協力しています。オペレーション、

インテリジェントタスク実行には業界の要件があります。 3 つ目は、将来の開発の観点から、

マルチエージェントのコラボレーション # は、物流、建設、工場などの分野で明らかなニーズがあります。この分野において、ドローンは「神の視点」から見た知性を具現化したものであり、タスクを割り当てる中心ノードのリーダーとしての役割を果たすのに適しており、その他のロボットはドローンのアクチュエーターとみなすことができます。の研究の一環であり、今後の発展性も期待できる研究です。チームは、airgen のエミュレータを使用してシミュレーション実験を実施し、対照群として DRL などの手法も選択しました。実験結果は次のとおりです。

山火事の捜索と救助のシナリオでは、AeroAgent は標準スコアの下で 100 ポイントという優れたスコアを達成し、平均は 2.04 ポイントでした。ステップあたり

北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案 LLM または DRL ベースのエージェントを単に呼び出すエージェントのスコアはわずか 29.4 ポイントで、ステップあたりの平均スコアは 0.2 で、AeroAgent の 10 分の 1 未満でした。