StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決-AI-php.cn

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

WBOY

リリース： 2023-04-09 08:31:08

転載

1064 人が閲覧しました

マルチエージェント強化学習 (MARL) は、各エージェントのポリシー改善の方向性を特定するだけでなく、全体のパフォーマンスを向上させるために個々のエージェントのポリシー更新を組み合わせる必要がある難しい問題です。最近、この問題は最初に解決され、一部の研究者は、エージェントがトレーニング段階でグローバル情報にアクセスできるようにする集中トレーニング分散実行 (CTDE) 手法を導入しました。ただし、これらの方法では、マルチエージェントインタラクションの複雑さをすべてカバーすることはできません。

実際、これらの方法のいくつかは失敗であることが判明しています。この問題を解決するために、マルチエージェント支配分解定理を提案した人がいます。これに基づいて、HATRPO および HAPPO アルゴリズムが導出されます。ただし、これらのアプローチには限界があり、依然として慎重に設計された最大化目標に依存しています。

近年、シーケンスモデル (SM) は自然言語処理 (NLP) の分野で大幅な進歩を遂げました。たとえば、GPT シリーズと BERT は、幅広いダウンストリームタスクで優れたパフォーマンスを発揮し、小さなサンプルの汎化タスクでも優れたパフォーマンスを実現します。

シーケンスモデルは言語のシーケンス特性に自然に適合するため、言語タスクに使用できますが、シーケンスメソッドは NLP タスクに限定されず、広く適用可能な一般的な基本ですモデル。たとえば、コンピュータービジョン (CV) では、画像をサブ画像に分割し、それらを NLP タスクのトークンであるかのようにシーケンスに配置できます。 Flamingo、DALL-E、GATOなどの最近の有名なモデルにはすべてシーケンスメソッドの影があります。

Transformer などのネットワークアーキテクチャの出現に伴い、シーケンスモデリングテクノロジは RL コミュニティからも大きな注目を集めており、Transformer アーキテクチャに基づいた一連のオフライン RL 開発が推進されています。これらの方法は、最も基本的な RL トレーニングの問題のいくつかを解決する上で大きな可能性を示しています。

これらの方法は顕著な成功を収めましたが、マルチエージェントシステムの最も困難な (そして MARL に特有の) 側面であるエージェント間の対話をモデル化するように設計されたものはありませんでした。実際、単にすべてのエージェントに Transformer ポリシーを与えて個別にトレーニングしたとしても、MARL ジョイントのパフォーマンスが向上するという保証はまだありません。したがって、利用可能な強力なシーケンスモデルが多数ある一方で、MARL はシーケンスモデルのパフォーマンスを実際には活用していません。

MARL 問題を解決するためにシーケンスモデルを使用するにはどうすればよいですか?上海交通大学、Digital Brain Lab、オックスフォード大学などの研究者らは、協調的な MARL 問題をシーケンスモデルの問題に効果的に変換できる新しいマルチエージェントトランスフォーマー (MAT、マルチエージェントトランスフォーマー) アーキテクチャを提案しました。エージェントの観察シーケンスをエージェントの最適なアクションシーケンスに変換します。

このペーパーの目標は、MARL の最新のシーケンスモデルのモデリング機能を解放するために、MARL と SM の間にブリッジを構築することです。 MAT の中核は、エンコーダ/デコーダアーキテクチャです。これは、マルチエージェントの利点分解定理を使用して、共同戦略探索問題を逐次意思決定プロセスに変換するため、マルチエージェント問題は線形時間計算量を示し、ほとんどの重要なのは、そうすることで MAT のパフォーマンスが単調に向上することが保証されるということです。事前に収集されたオフラインデータを必要とする Decision Transformer などの以前の手法とは異なり、MAT は、環境からのオンラインの試行錯誤を通じて、オンラインで戦略的な方法でトレーニングされます。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

#論文アドレス: https://arxiv.org/pdf/2205.14953 .pdf
プロジェクトのホームページ: https://sites.google.com/view/multi-agent-transformer

MAT を検証するために、研究者は StarCraftII、マルチエージェント MuJoCo、Dexterous Hands Manipulation、Google Research Football ベンチマークについて広範な実験を実施しました。結果は、MAPPO や HAPPO などの強力なベースラインと比較して、MAT のパフォーマンスとデータ効率が優れていることを示しています。さらに、この研究は、エージェントの数がどのように変化しても、MAT は目に見えないタスクでより優れたパフォーマンスを発揮することも証明しましたが、小規模サンプル学習器としては優れていると言えます。

背景知識

このセクションでは、研究者が最初に、この記事の基礎である協調 MARL 問題公式とマルチエージェント利点分解定理を紹介します。次に、既存の MAT 関連の MARL メソッドを検討し、最終的に Transformer に至ります。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

従来のマルチエージェント学習パラダイム (左) とマルチエージェントシーケンス意思決定パラダイム (右) の比較。

#問題の式

協調 MARL 問題は、通常、部分的に観察可能な個別のマルコフ決定プロセス (Dec-POMDP)# で構成されます。モデルに。 StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決マルチエージェント支配分解定理

エージェントは、次のように定義される Q_π(o, a) および V_π(o) を通じてアクションと観察の値を評価します。が続きます。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

定理 1 (マルチエージェント支配分解): i_1:n をエージェントの配置とします。次の式は、さらなる仮定なしで常に成り立ちます。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

# 重要なのは、定理 1 は、段階的な改善アクションを選択する方法についての直感を提供することです。

既存の MARL メソッド

研究者らは、現在の 2 つの SOTA MARL アルゴリズムを要約しました。どちらも Proximal Policy Optimization (PPO) に基づいて構築されています。 PPO は、そのシンプルさとパフォーマンスの安定性で知られる RL 手法です。

マルチエージェント近接ポリシー最適化 (MAPPO) は、PPO を MARL に適用する最初で最も簡単な方法です。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

Heterogeneous Agent Proximal Policy Optimization (HAPPO) は、現在の SOTA アルゴリズムの 1 つであり、定理 (1) を最大限に活用して複数のポリシーを実現できます。 -単調リフティング保証によるエージェント信頼ドメイン学習。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

トランスモデル

定理 ( 1) シーケンスのプロパティと HAPPO の背後にある原理は、Transformer モデルを使用してマルチエージェントの信頼ドメイン学習を実装することを直感的に考慮できるようになりました。エージェントチームをシーケンスとして扱うことにより、Transformer アーキテクチャでは、MAPPO/HAPPO の欠点を回避しながら、可変の数とタイプを使用してエージェントチームをモデル化できます。

マルチエージェントトランスフォーマー

MARL のシーケンスモデリングパラダイムを実現するために、研究者が提供したソリューションはマルチエージェントトランスフォーマー (MAT) です。 Transformer アーキテクチャを適用するというアイデアは、エージェントがシーケンスの入力 (o^i_1,..., o^i_n) とアクションシーケンスの出力 (a^i_1, . . ., a^i_n) マッピングは、機械翻訳に似たシーケンスモデリングタスクです。定理 (1) が回避しているように、アクション a^i_m はすべてのエージェントの以前の決定 a^i_1:m−1 に依存します。

したがって、下の図 (2) に示すように、MAT には共同観察表現を学習するためのエンコーダーと、各エージェントのアクションを出力するための自己回帰手法が含まれています。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

エンコーダのパラメータは φ で表され、任意の順序で観測シーケンスを取得します ( o^i_1 , . . . , o^i_n) を計算し、それらをいくつかの計算ブロックに渡します。各ブロックは、セルフアテンションメカニズム、多層パーセプトロン (MLP)、および深さの増加に伴う勾配の消失とネットワークの劣化を防ぐための残留接続で構成されます。

デコーダのパラメータは θ で表され、これには関節動作 a^i_0:m−1, m = {1, . . . n} (ここで a^i_0復号の開始を示す任意のシンボル）が復号ブロックシーケンスに渡されます。重要なことは、各デコードブロックにはマスクされたセルフアテンションメカニズムがあるということです。デコーダをトレーニングするために、次のように切り取られた PPO 目標を最小化します。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

#MAT の詳細なデータフローを次のアニメーションに示します。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決

実験結果

MAT が期待を満たすかどうかを評価するために、研究者は StarCraft II Multi-Agent Challenge (SMAC) ベンチマーク (MAT の上に MAPPO を追加) をテストしました。マルチエージェント MuJoCo ベンチマークでテストされました (HAPPO は SOTA パフォーマンスを備えています)。

さらに、研究者らは、Bimanual Dxterous Hand Manipulation (Bi-DexHands) および Google Research Football ベンチマークに関する MAT の拡張テストも実施しました。前者は両手で行うさまざまな挑戦的なタスクを提供し、後者はフットボールの試合内でさまざまな協力シナリオを提供します。

最後に、Transformer モデルは通常、小さなサンプルタスクに対して強力な汎化パフォーマンスを示すため、研究者らは、MAT もまだ見ぬ MARL タスクに対しても同様の強力なパフォーマンスを発揮できると考えています。したがって、彼らは SMAC およびマルチエージェント MuJoCo タスクに関するゼロショットおよびスモールショット実験を設計しました。

協調的 MARL ベンチマークでのパフォーマンス

以下の表 1 と図 4 に示すように、SMAC、マルチエージェント MuJoCo、および Bi-DexHands ベンチマークの MAT はほぼすべてのタスクにおいて MAPPO や HAPPO よりも大幅に優れており、同種および異種のエージェントタスクに対する強力な構築能力を示しています。さらに、MAT は MAT-Dec よりも優れたパフォーマンスも達成しており、MAT 設計におけるデコーダアーキテクチャの重要性を示しています。

StarCraft II 協力対決ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習問題を解決