マルチモーダル時代に突入、大型機種でもドローンの制御が可能に!
ビジョン モジュールが開始条件を捕捉すると、大型モデルの「頭脳」が動作指示を生成し、ドローンがその指示を迅速かつ正確に実行できるようになります。
周耀明教授率いる北京航空航天大学のインテリジェントドローンチームの研究者らは、マルチモーダル大型モデルに基づいた具現化インテリジェンスアーキテクチャを提案しました
現在、この構造は無人機の制御に使用されています航空機 この新しいインテリジェント エージェントはどのように機能しますか? 技術的な詳細は何ですか?
「エージェントは脳である」
研究チームは大規模モデルを使用してマルチモーダルデータを理解し、実際の物理世界の写真、音、センサーデータなどのマルチソース情報を統合しています。エージェントは周囲の環境を認識し、それに対応した行動操作を実行できます。同時に、チームは「大脳としてのエージェント、小脳としてのコントローラー」というセットを提案しました(エージェントは脳であり、コントローラーは小脳です)インテリジェント エージェントは、脳の意思決定生成者として、高レベルの行動を生成することに重点を置いています。 書き換えられた文: 脳の意思決定生成者として、エージェントは高レベルの動作の生成に焦点を当てます
小脳の運動コントローラーとして、コントローラーの主な責任は高レベルの動作 (次のような) を生成することです。 具体的には、研究チームは、この成果には主に 3 つの貢献があると考えています。
実際の状況に適用できる新しいシステムアーキテクチャ
研究チームは、実際のロボットに適用できる新しいシステムアーキテクチャを提案しました。このアーキテクチャは、マルチモーダル大規模モデルに基づく知的エージェントを脳に具現化し、ロボットの動作プランナーとコントローラーを小脳に具現化します。ロボットの知覚システムは人間の目、耳などに類似しています。情報収集 ロボットのアクチュエーターは人間の手などのアクチュエーターに似ています。
△図 1 ハードウェア システム アーキテクチャ これらのノードは ROS を介して接続され、ROS でのメッセージのサブスクリプションとパブリケーション、またはリクエストとレスポンスを通じて通信します。従来のエンドツーエンドのロボット大規模モデル制御とは異なります。 このアーキテクチャにより、エージェントは高レベルのコマンドの生成に集中し、高レベルのタスクに対してよりインテリジェントになり、実際の実行の堅牢性と信頼性が向上します。#書き換えが必要な内容は以下のとおりです。 △図 2 ソフトウェア システム アーキテクチャ 書き換えられた内容: ソフトウェア システム アーキテクチャを図 2 に示します。
新しいエージェント
このアーキテクチャの下で、著者は頭脳として機能するインテリジェント エージェントである AeroAgent を構築しました。
エージェントは主に 3 つの部分で構成されています:
自動計画生成モジュール。マルチモーダルなセンシングおよび監視機能があり、スタンバイ モードでの緊急事態の処理に優れています。
具体化されたインテリジェント アクション モジュールは、具体化されたインテリジェンスと ROS 上の他のモジュール間の安定した制御のためのブリッジを確立できます。このモジュールは、ブリッジとしての操作を使用して ROS 上の他のノードにアクセスする機能を提供します。
同時に、アクションを完了するには、エージェントが包括的な状況に基づいてアクションを実行できるようにするために、アクションの実行に必要なパラメータをセンサーから取得するために複数のインタラクションが必要になる場合があります。特定のアクションの安定した出力身体化されたエージェントと ROS ロボット システムの間にブリッジを構築するために、エージェントにオペレーションを生成させます。 ROS に正しく安定して送信でき、他のノードによって正常に実行されると同時に、他のノードから提供された情報を LMM が読み取って理解できるようになります。チームは ROSchain を設計しました -
LLM の組み合わせ/ LMM ROS
ROSchain を接続するブリッジは、一連のモジュールとアプリケーション プログラム インターフェイス (API) を介して、大規模モデルとロボット センシング デバイス、実行ユニット、制御メカニズムの統合を簡素化し、エージェントが ROS にアクセスする方法を提供します。システム、安定したミドルウェア。研究チームは、システム アーキテクチャのテストとシミュレーションを行うためにドローンを選択した理由を 3 つ説明しました。
まず第一に、Web のほとんどの今日の LMM に含まれるスケール世界の知識は三人称視点のものであり、人型ロボットなどの分野における身体化された知能は、人間を主体とした一人称視点に似ています。 ドローンのカメラ、特に下向きのカメラは、生物知能の三人称視点(神の視点)に近いです
一方、現段階のLMMは、モデルのデプロイメントであれ API サービスであれ、通常はコンピューティング リソースによって制限され、応答にある程度の遅れが生じます。 UAV のミッション計画は、ホバリング能力と遅延に対処する能力によるものですが、これは自動運転などの分野での応用の障害となりますこれら 2 つの点の両方が、 UAV は、関連する理論や応用を検証する先駆者として適しています。2つ目
、現在、山火事救助、農林植物保護、無人放牧、電力検査などの産業用ドローンの分野で、パイロットと専門家が実際の現場と協力しています。オペレーション、インテリジェント タスク実行には業界の要件があります。 3 つ目は、将来の開発の観点から、
マルチエージェントのコラボレーション # は、物流、建設、工場などの分野で明らかなニーズがあります。 この分野において、ドローンは「神の視点」から見た知性を具現化したものであり、タスクを割り当てる中心ノードのリーダーとしての役割を果たすのに適しており、その他のロボットはドローンのアクチュエーターとみなすことができます。の研究の一環であり、今後の発展性も期待できる研究です。 チームは、airgen のエミュレータを使用してシミュレーション実験を実施し、対照群として DRL などの手法も選択しました。実験結果は次のとおりです。
山火事の捜索と救助のシナリオでは、AeroAgent は標準スコアの下で 100 ポイントという優れたスコアを達成し、平均は 2.04 ポイントでした。ステップあたりLLM または DRL ベースのエージェントを単に呼び出すエージェントのスコアはわずか 29.4 ポイントで、ステップあたりの平均スコアは 0.2 で、AeroAgent の 10 分の 1 未満でした。
#書き直す必要がある内容は次のとおりです。写真 △No. 4-1、山火事の救助シーン
着陸ミッションでは、AeroAgent も 97.4 点を獲得しました総合ポイントとステップごとの平均スコア 48.7 は他のモデルを上回っています。
書き直す必要がある内容は次のとおりです。 △図 4-2 海上エプロン着艦シーン
#そして、風力タービンの検査テストでは、AeroAgent が直接この課題を達成できる唯一のモデル。
#△図 4-3 風力タービンの検査シナリオナビゲーション タスクでは、AeroAgent 4.44 の各ステップのスコアはそれぞれ DRL と純粋な LLM です。 40 回と 10 回近く#書き換えが必要な内容は次のとおりです。 △図 4-4 Airgen シミュレーション実験
#チームは 2014 年にも実施しました。実際のシーン UAV システムのテストは、閉じ込められた人々の簡単な誘導実験を例としたケーススタディとして実施されました。
書き直す必要がある内容は次のとおりです。 △ 図 5 閉じ込められた人々を誘導するケース実験
チームは現在、この作業をベースにしています。ヤク牧場では、実用化の可能性を探るために無人放牧知能ドローンの実験を行っており、「知能の具現化」を目標に、他のロボット・マルチロボットと連携した知能エージェントの応用を模索していきます。
論文アドレス: https://arxiv.org/abs/2311.15033
以上が北杭大学チームが大型ドローンの制御を実現するための身体化インテリジェンスの新しいアーキテクチャを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。