中国科学技術大学は、パフォーマンスを 20% 向上させ、サンプル効率を最大化する「状態系列周波数領域予測」手法を開発しました。-AI-php.cn

強化学習アルゴリズム (強化学習、RL) のトレーニングプロセスでは、通常、それをサポートするために環境と対話する大量のサンプルデータが必要です。しかし、現実の世界では、UAV の空戦訓練や自動運転訓練など、多数のインタラクションサンプルを収集するのに非常に費用がかかることや、サンプリングプロセスの安全性が確保できないことがよくあります。この問題により、多くの実際のアプリケーションにおける強化学習の範囲が制限されます。したがって、研究者たちは、この問題を解決するために、サンプルの効率と安全性のバランスをとる方法を探求することに熱心に取り組んできました。考えられる解決策の 1 つは、シミュレーターまたは仮想環境を使用して大量のサンプルデータを生成し、現実世界の状況におけるコストとセキュリティのリスクを回避することです。さらに、トレーニングプロセス中の強化学習アルゴリズムのサンプル効率を向上させるために、一部の研究者は表現学習テクノロジーを使用して、将来の状態信号を予測するための補助タスクを設計しました。このようにして、アルゴリズムは、元の環境状態から将来の決定に関連する特徴を抽出してエンコードできます。このアプローチの目的は、環境に関するより多くの情報を学習し、意思決定のためのより良い基盤を提供することで、強化学習アルゴリズムのパフォーマンスを向上させることです。このようにして、アルゴリズムはトレーニングプロセス中にサンプルデータをより効率的に使用し、学習プロセスを加速し、意思決定の精度と効率を向上させることができます。

このアイデアに基づいて、この研究では、将来の複数のステップの状態シーケンスの周波数領域分布

を予測し、長期的な将来の決定を捉える補助タスクを設計しました。特徴を作り、それによってアルゴリズムのサンプル効率を向上させます。

この研究のタイトルは「表現学習のためのフーリエ変換による状態シーケンス予測」であり、NeurIPS 2023 で公開され、Spotlight として承認されました。

# 著者リスト: Ye Mingxuan、Kuang Yufei、Wang Jie*、Yang Rui、Zhou Wengang、Li Houqiang、Wu Feng

中国科学技術大学は、パフォーマンスを 20% 向上させ、サンプル効率を最大化する「状態系列周波数領域予測」手法を開発しました。

論文リンク: https://openreview.net/forum?id=MvoMDD6emT

コードリンク: https://github.com/MIRALab-USTC/ RL-SPF /

研究の背景と動機

深層強化学習アルゴリズムは、ロボット制御 [1]、ゲームインテリジェンス [2] で使用されます。、組み合わせ最適化 [3] などの分野で大きな成功を収めています。しかし、現在の強化学習アルゴリズムは依然として「サンプル効率が低い」という問題を抱えています。つまり、ロボットが優れたパフォーマンスの戦略をトレーニングするには、環境と対話する大量のデータが必要です。

サンプル効率を向上させるために、研究者は表現学習に注目し始めており、トレーニングによって得られた表現が環境の元の状態から豊富で有用な特徴情報を抽出できることを期待しています。状態空間での探索効率を向上させ、ロボットのパフォーマンスを向上させます。

#表現学習に基づく強化学習アルゴリズムフレームワーク

逐次意思決定タスクでは、中国科学技術大学は、パフォーマンスを 20% 向上させ、サンプル効率を最大化する「状態系列周波数領域予測」手法を開発しました。「長期シーケンスシグナル」

シングルステップシグナルよりも長期的な意思決定に有益な将来の情報が含まれます。この観点に触発されて、一部の研究者は、将来的にマルチステップ状態シーケンス信号を予測することで表現学習を支援することを提案しています[4,5]。ただし、表現学習を支援するために状態シーケンスを直接予測することは非常に困難です。

既存の 2 つの方法のうち、1 つの方法は、

シングルステップ確率伝達モデルを学習して複数のステップの状態を間接的に予測することで、ある瞬間の将来の状態を段階的に生成します。シーケンス [6,7]。ただし、このタイプの方法では、予測シーケンスの長さが増加するにつれて各ステップでの予測誤差が蓄積されるため、トレーニングされた確率伝達モデルの高精度が必要になります。

別のタイプの方法は、

将来の複数のステップの状態シーケンスを直接予測することで表現学習 [8] を支援しますただし、このタイプの方法では、複数のステップの実際の状態シーケンスは、予測タスクのラベルとして、大量のストレージを消費します。したがって、環境の状態列から長期的な意思決定に有益な将来情報をどのように効率的に抽出し、制御ロボットの継続学習におけるサンプル効率を向上させるかが解決すべき課題となっている。

上記の問題を解決するために、我々は状態系列 (

State Sequences P##) の周波数領域予測に基づく表現学習手法を提案します。 Fウーリエ変換、

SPF

による #予測)、そのアイデアは、「状態シーケンスの周波数領域分布」を使用して、状態シーケンスデータの傾向とパターンを明示的に抽出することです。これにより、長期的な将来の情報を効率的に抽出するための表現を支援します。

状態列の構造情報の解析

状態列には 「2 種類の構造情報」が存在することを理論的に証明しました。 1 つは 戦略のパフォーマンス に関連するトレンド情報であり、もう 1 つは 状態の周期性 に関連する定期的な情報です。

マルコフ決定プロセス

2 つの構造情報を詳細に分析する前に、まず状態シーケンスを生成するマルコフ決定を紹介します。プロセス (マルコフ決定プロセス、MDP)。

連続制御問題における古典的なマルコフ決定プロセスを検討します。これは 5 つのタプルで表すことができます。その中で、は対応する状態とアクション空間、は報酬関数、は環境の状態遷移関数、は状態の初期分布、は割引係数です。また、状態におけるポリシーのアクション分布を表すためにを使用します。

時刻におけるエージェントの状態をとして記録し、選択されたアクションをとして記録します。エージェントがアクションを行った後、環境は次の状態に移行し、インテリジェンスにフィードバックされます。身体のご褒美。エージェントと環境の間の相互作用中に得られる状態とアクションに対応する軌跡をとして記録し、その軌跡は分布に従います。

強化学習アルゴリズムの目標は、将来の期待累積リターンを最大化することです。現在の戦略と環境モデルの下での平均累積リターンをを使用して表し、と略します。これは次のように定義されます。

現在の戦略のパフォーマンスを示します。

トレンド情報

次に、依存関係を含む状態シーケンスの「最初の構造的特徴」 を紹介します。状態シーケンスと対応する報酬シーケンスの間で、 現在の戦略のパフォーマンス傾向を示すことができます。

強化学習タスクでは、将来の状態シーケンスがエージェントが将来実行するアクションシーケンスを主に決定し、さらに対応する報酬シーケンスも決定します。。したがって、将来の状態シーケンスには、環境に固有の確率遷移関数に関する情報が含まれるだけでなく、現在の戦略の傾向を把握するのにも役立ちます。
上記の構造に触発されて、この構造的な依存関係の存在をさらに証明するために次の定理を証明します。

定理 1 : 報酬関数が状態にのみ関連する場合、任意の 2 つの戦略とについて、それらのパフォーマンスの差は、これら 2 つの戦略によって生成される状態シーケンス分布の違いによって制御できます。 ##上記の式において、は指定されたポリシーおよび遷移確率関数の下での状態系列の確率分布を表し、ノルムを表します。

上記の定理は、2 つの戦略間のパフォーマンスの差が大きければ大きいほど、対応する 2 つの状態シーケンス間の分布の差も大きくなることを示しています。これは、良い戦略と悪い戦略が 2 つのまったく異なる状態シーケンスを生成することを意味します。これは、状態シーケンスに含まれる長期的な構造情報が、優れたパフォーマンスを伴う検索戦略の効率に潜在的に影響を与える可能性があることをさらに示しています。

一方、特定の条件下では、次の定理に示すように、状態シーケンスの周波数領域分布の違いが、対応するポリシーのパフォーマンスの違いの上限を与える可能性もあります。

定理 2
: 状態空間が有限次元で、報酬関数が状態に関連する n 次の多項式である場合、任意の 2 つの戦略に対して、、それらのパフォーマンスの違いは、次の 2 つの戦略によって生成された状態シーケンスの周波数領域分布の違いによって制御されます: 上の式で、はべき乗のフーリエ関数を表します。ストラテジによって生成された状態シーケンスのシーケンス。フーリエ関数の成分を表します。

この定理は、
状態シーケンスの周波数領域分布には、現在の戦略のパフォーマンスに関連する特徴
がまだ含まれていることを示しています。 #定期情報

ここで、状態シーケンスに存在する「第 2 の構造的特徴」
を紹介します。状態信号間の時間依存性、つまり、長期間にわたって状態シーケンスによって表示される
規則的なパターン。
実際のシナリオのタスクの多くでは、エージェントの環境自体の状態遷移関数が周期的であるため、エージェントも周期的な動作を示します。産業用組立ロボットを例にとると、ロボットは部品を組み立てて最終製品を作成するように訓練されています。戦略訓練が安定に達すると、Togetter で部品を効率的に組み立てることができる周期的なアクションシーケンスを実行します。

上記の例から着想を得て、有限状態空間において、遷移確率行列が特定の仮定を満たした場合、対応する状態シーケンスがエージェント内で安定に達することを証明するために、いくつかの理論的分析を提供します。この戦略は 「漸近周期性」 を示す可能性があります。特定の定理は次のとおりです:

#定理 3: の有限状態遷移行列の場合次元状態空間、サイクルクラスがあると仮定すると、対応する状態遷移部分行列は次のようになります。この行列の法 1 の固有値の数がであると仮定すると、任意の状態の初期分布について、状態分布は周期で漸近的な周期性を示します。

MuJoCo タスクでは、戦略トレーニングが安定に達すると、エージェントも周期的な動きを示します。以下の図は、一定期間にわたる MuJoCo タスクにおける HalfCheetah エージェントの状態シーケンスの例を示しており、明らかな周期性が観察されます。 (MuJoCo タスクの周期的状態シーケンスのその他の例については、この文書の付録のセクション E を参照してください)。 MuJoCo タスク一定期間内の状態によって示される周期性

時間領域では時系列によって示される情報は比較的分散していますが、周波数領域では規則的な情報が存在します。シーケンスはより集中して表示されます。周波数領域で周波数成分を分析することにより、状態シーケンスに存在する周期的特性を明示的に捉えることができます。

手法の紹介

前のパートでは、状態シーケンスの周波数領域の分布が戦略のパフォーマンスを反映できることを理論的に証明しました。周波数領域で周波数成分を分析することにより、状態シーケンスの周期的特徴を明示的に捉えることができます。

上記の分析に触発されて、
「無限ステップの将来状態シーケンスのフーリエ変換を予測する」
という補助タスクを設計して、抽出された状態シーケンスの性的情報の構造。
#SPF メソッド損失関数
次に、この補助タスクのモデル化を紹介します。現在の状態とアクションを考慮して、予想される将来の状態シーケンスを次のように定義します。

私たちの補助タスクは、予想される状態シーケンスを予測するために表現をトレーニングします。上記の離散時間フーリエ変換 (DTFT)、つまり

上記のフーリエ変換式は、次の再帰形式として書き直すことができます。

##どこで、

##それら、は状態空間の次元、は予測された状態シーケンスのフーリエ関数の離散化点の数です。

Q 学習の Q 値ネットワークを最適化する TD 誤差損失関数 [9] からインスピレーションを得て、次の損失関数を設計しました。

その中には、損失関数を最適化する必要がある表現エンコーダー (エンコーダー) とフーリエ関数予測器 (プレディクター) のニューラルネットワークパラメーターと、サンプルデータを保存するためのエクスペリエンスプールが含まれます。

さらに、上記の再帰式が圧縮マップとして表現できることを証明できます。

定理 4 : 関数ファミリーを表し、ノルムを次のように定義します。

## ここで、は行列の行ベクトルを表します。マッピングを

として定義すると、それが圧縮マッピングであることが証明できます。

圧縮マッピングの原理に従って、演算子を繰り返し使用して実際の状態シーケンスの周波数領域分布を近似することができ、表形式の設定で収束が保証されます。

さらに、私たちが設計した損失関数は現時点と次の瞬間の状態にのみ依存するため、将来的に複数のステップの状態データを保存する必要はありません実装が簡単でストレージ容量が少ないという利点があります。
SPF メソッドのアルゴリズムフレームワーク
ここで、この論文のメソッド (SPF) のアルゴリズムフレームワークを紹介します。

状態系列周波数領域予測に基づく表現学習法(SPF)のアルゴリズムフレームワーク図
現在の瞬間を組み合わせるある瞬間の状態・動作データをオンライン表現エンコーダとターゲット表現エンコーダにそれぞれ入力して状態・動作表現データを取得し、その表現データをフーリエ関数予測器（プレディクタ）に入力して2つの状態セットを取得しますシーケンスフーリエ関数の現時点と次の瞬間の予測値。これら 2 つのフーリエ関数予測セットを代入することで、損失関数の値を計算できます。
損失関数を最小化することで表現エンコーダとフーリエ関数予測器を最適化および更新し、予測器の出力が実際の状態シーケンスのフーリエ変換に近似できるようにします。表現エンコーダは、将来の長期状態シーケンスに関する構造情報を含む特徴を抽出します。
元の状態とアクションを表現エンコーダーに入力し、得られた特徴を強化学習アルゴリズムのアクターネットワークと批評家ネットワークへの入力として使用し、アクターネットワークを最適化します。古典的な強化学習アルゴリズムと批評家ネットワーク。
実験結果
(注: このセクションでは実験結果の一部のみを抜粋しています。より詳細な結果については、セクション 6 とセクション 6 を参照してください。 .)
アルゴリズム性能比較
MuJoCo シミュレーションロボット制御環境で SPF 手法をテストし、比較しました。次の 6 つのメソッド:

SAC: 従来の RL アルゴリズムである Q 値学習 [10] に基づくソフトアクタークリティカルアルゴリズム

PPO: 従来の RL アルゴリズムであるポリシー最適化 [11] に基づく近接ポリシー最適化アルゴリズム;

SAC-OFE : SAC アルゴリズムを最適化するために、表現学習の単一ステップの将来状態を予測する補助タスクを利用します;

PPO-OFE:単一ステップの将来状態の予測を利用する補助タスクを使用した表現学習を利用して PPO アルゴリズムを最適化します;

SAC-SPF: 補助タスクを使用した表現学習SAC アルゴリズムを最適化するための無限ステップ状態シーケンスの周波数領域関数の予測 (私たちのアプローチ);

PPO-SPF: 予測の補助タスクを使用した表現学習PPO アルゴリズムを最適化するための無限ステップ状態シーケンスの周波数領域関数 (私たちの方法);

6 つの MuJoCo タスクに基づく比較実験結果
上の図は、6 つの MuJoCo タスクにおける、私たちが提案する SPF 手法 (赤線とオレンジ線) と他の比較手法のパフォーマンス曲線を示しています。結果は、私たちの提案手法が他の手法と比較して 19.5% のパフォーマンス向上を達成できることを示しています。

アブレーション実験

SPF 法の各モジュールについてアブレーション実験を実施し、SPF 法を使用しない方法と比較しました。プロジェクターモジュール (noproj) を使用し、ターゲットネットワークモジュールを使用しない場合 (notarg)、予測損失を変更する場合 (nofreqloss)、および特徴エンコーダーネットワーク構造を変更する場合 (mlp、mlp_cat) のパフォーマンスを比較します。

#HalfCheetah タスクでテストされた、SAC アルゴリズムに適用された SPF メソッドのアブレーション実験結果図

可視化実験

SPF法を使用します訓練された予測器は状態シーケンスのフーリエ関数を出力し、逆フーリエ変換##を渡します#復元された 200 ステップのステータスシーケンスと実際の 200 ステップのステータスシーケンスを比較します。

Walker2d タスクでテストされた、フーリエ関数の予測値に基づいて復元された状態シーケンスの概略図。このうち、青い線は実際の状態シーケンスの模式図、5 本の赤い線は復元された状態シーケンスの模式図で、下と薄い赤の線はより長い履歴状態を使用して復元された状態シーケンスを表します。
結果は、たとえより長い状態が入力として使用されたとしても、復元された状態シーケンスは実際の状態シーケンスに非常に類似していることを示しており、これは SPF メソッドによって学習された表現が可能であることを示しています。状態シーケンスに含まれる構造情報を効果的にエンコードする。

以上が中国科学技術大学は、パフォーマンスを 20% 向上させ、サンプル効率を最大化する「状態系列周波数領域予測」手法を開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。