VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う-AI-php.cn

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

WBOY

リリース： 2023-04-09 14:41:10

転載

1422 人が閲覧しました

arXiv 論文「VectorFlow: 交通占有と流量予測のための画像とベクトルの結合」、2022 年 8 月 9 日、清華大学勤務。

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

# 道路管理者の将来の行動を予測することは、自動運転における重要なタスクです。既存のモデルはエージェントの将来の行動を予測することに大きな成功を収めていますが、複数のエージェントの協調的な行動を効果的に予測することは依然として課題です。最近、誰かが 占有フローフィールド (OFF) 表現を提案しました。これは、占有グリッドとフローの組み合わせを通じて道路管理者の共同の将来の状態を表し、一貫した予測をサポートします。

この研究では、新しい占有流動フィールド予測器、ラスター化された交通画像から特徴を学習する画像エンコーダー、および継続的なエージェントの軌跡と地図の状態情報をキャプチャするベクトルエンコーダーを提案します。両方を組み合わせて、正確な占有と流動の予測を生成します。。 2 つのエンコード機能は、最終的な予測を生成する前に、複数のアテンションモジュールによって融合されます。このモデルは、Waymo Open Dataset Occupancy and Flow Prediction Challenge で 3 位にランクされ、遮蔽占有とフロー予測タスクで最高のパフォーマンスを達成しました。

OFF 表現 (「Occupancy Flow Fields for Motion Forecasting in Autonomous Driving」、arXiv 2203.03875、3、2022) は、各グリッドセルに i) 確率が含まれる時空間グリッドです。任意のエージェントがユニットを占有していること、および ii) そのユニットを占有しているエージェントの移動の流れを表します。占有フローフィールドを予測する計算の複雑さはシーン内の道路管理者の数に依存しないため、効率とスケーラビリティが向上します。

写真はOFFフレーム図です。エンコーダの構造は以下の通りです。最初のステージは 3 種類の入力ポイントをすべて受け取り、PointPillars からインスピレーションを得たエンコーダーで処理します。信号機と道路ポイントはグリッド上に直接配置されます。各入力タイムステップ t でのエージェントの状態エンコードは、各エージェント BEV ボックスから固定サイズの点グリッドを均一にサンプリングし、これらの点を、配置された関連するエージェント状態属性 (時間 t のワンホットエンコードを含む) と組み合わせます。グリッド上で。各ピラーは、それに含まれるすべてのポイントのエンベディングを出力します。デコーダの構造は以下の通りです。 2 番目のレベルは、各ピラーの埋め込みを入力として受け取り、グリッドごとのセル占有率とフロー予測を生成します。デコーダネットワークは EfficientNet に基づいており、EfficientNet をバックボーンとして使用して各ピラーの埋め込みを処理して特徴マップ (P2、...P7) を取得します。ここで、Pi は入力から 2^i ダウンサンプリングされます。次に、BiFPN ネットワークを使用して、これらのマルチスケール機能を双方向で融合します。次に、最高解像度の特徴マップ P2 を使用して、すべてのタイムステップにおけるすべてのエージェントクラス K の占有率とフロー予測を回帰します。具体的には、デコーダは占有とフローを予測しながら、各グリッドセルのベクトルを出力します。

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

この記事では、次の問題設定が行われます。シーン内の交通エージェントの 1 秒間の履歴と、マップ座標などのシーンコンテキストを考慮すると、目標は、i) 将来の観測占有率、ii) 将来のオクルージョンの占有率、および iii) シーン内の 8 つの将来のウェイポイントにおけるすべての車両の将来の流れを予測することです。各ウェイポイントは 1 秒の間隔をカバーします。

入力をラスター化されたイメージとベクトルのセットに処理します。画像を取得するために、観測エージェントの軌跡と地図データを考慮して、自動運転車 (SDC) のローカル座標を基準にして過去の各タイムステップでラスタライズされたグリッドが作成されます。ラスター化されたイメージと一致するベクトル化された入力を取得するには、同じ変換に従い、入力エージェントとマップ座標を SDC のローカルビューに対して回転および移動します。

エンコーダーは、ラスター化された表現をエンコードする VGG-16 モデルと、ベクトル化された表現をエンコードする VectorNe モデルの 2 つの部分で構成されます。ベクトル化された機能は、クロスアテンションモジュールを通じて VGG-16 の最後の 2 つのステップの機能と融合されます。 FPN スタイルのネットワークを通じて、融合されたフィーチャは元の解像度にアップサンプリングされ、入力ラスター化フィーチャとして使用されます。

デコーダーは、エンコーダーの出力を占有流動フィールド予測にマッピングする単一の 2D 畳み込み層です。これは、次の 8 秒間の各時間を表す一連の 8 つのグリッドマップで構成されます。占有率と流動予測。

写真が示すように:

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

torchvision の標準 VGG-16 モデルをラスタライズエンコーダとして使用し、VectorNet (コード https://github.com/Tsinghua -MAR##) に従います。 #S-Lab/DenseTNT) の実装。 VectorNet への入力は、i) B×Nr×9 の形状の道路要素ベクトルのセットで構成されます。ここで、B はバッチサイズ、Nr=10000 は道路要素ベクトルの最大数、最後の次元 9 は各ベクトルを表し、ベクトル ID 2 つのエンドポイントの位置 (x、y) と方向 (cosθ、sinθ)、ii) シーン内の最大 128 のエージェントのベクトルを含む、B×1280×9 の形状を持つエージェントベクトルのセット、ここで、各エージェントは観測位置から 10 個のベクトルを持ちます。

VectorNet に従い、最初に各交通要素の ID に従ってローカルマップを実行し、次にすべてのローカルフィーチャに対してグローバルマップを実行して、形状 B×128×N のベクトル化されたフィーチャを取得します。N は交通量です。パス要素とインテリジェンスを含む要素の合計。特徴のサイズは MLP 層を通じてさらに 4 倍に拡大され、最終的なベクトル化特徴 V が得られます。その形状は B × 512 × N であり、その特徴サイズは画像特徴のチャネルサイズと一致します。

VGG の各レベルの出力特徴は、入力イメージと 512 の隠れ次元を基準にして {C1、C2、C3、C4、C5} として表され、ストライドは {1、2、4、8 です。 , 16} ピクセル。ベクトル化された特徴Ｖは、クロスアテンションモジュールを通じて形状Ｂ×５１２×１６×１６のラスタライズされた画像特徴Ｃ５と融合され、同じ形状のＦ５が得られる。クロスアテンションのクエリ項目は、256 個のトークンを含む B×512×256 形状に平坦化された画像特徴 C5 であり、キー項目と値項目は、N 個のトークンを含むベクトル化された特徴 V です。

次に、チャネル次元で F5 と C5 を接続し、2 つの 3×3 畳み込み層を通過して、B×512×16×16 の形状を持つ P5 を取得します。 P5 は FPN スタイルの 2×2 アップサンプリングモジュールを通じてアップサンプリングされ、C4 (B×512×32×32) に接続されて、C4 と同じ形状の U4 が生成されます。次に、交差注意を含む同じ手順に従って、V と U4 の間で別のラウンドの融合が実行され、P4 (B × 512 × 32 × 32) が得られます。最後に、P4 は FPN スタイルのネットワークによって徐々にアップサンプリングされ、{C3, C2, C1} と接続されて、B×512×256×256 の形状を持つ EP1 が生成されます。 P1 を 2 つの 3×3 畳み込み層に通過させて、B×128×256 の形状を持つ最終出力特徴を取得します。

デコーダは、入力チャネルサイズ 128、出力チャネルサイズ 32 (8 ウェイポイント × 4 出力次元) の単一 2D 畳み込み層です。

結果は次のとおりです:

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う