CVPR 2024 |. Pra-latihan ruang masa empat dimensi model dunia pemanduan autonomi-AI-php.cn

Peking University dan pasukan inovasi EVLO bersama-sama mencadangkan DriveWorld, algoritma pra-latihan ruang masa empat dimensi untuk pemanduan autonomi. Kaedah ini menggunakan model dunia untuk pra-latihan, mereka bentuk model ruang keadaan memori untuk pemodelan spatio-temporal empat dimensi, dan mengurangkan ketidakpastian rawak dan ketidakpastian pengetahuan yang dihadapi oleh pemanduan autonomi dengan meramalkan grid pekerjaan tempat kejadian. Kertas kerja ini telah diterima oleh CVPR 2024. .

1. Motivasi

CVPR 2024 ｜自动驾驶世界模型四维时空预训练

Tugas memahami adegan pemanduan autonomi melibatkan pelbagai peringkat seperti persepsi adegan dan ramalan perubahan masa hadapan. Tahap ini termasuk bukan sahaja struktur tiga dimensi dalam ruang, tetapi juga perubahan dinamik dalam dimensi masa. Pemahaman adegan yang kompleks ini memerlukan model untuk menangkap dan memahami korelasi intrinsik ruang dan masa empat dimensi untuk membuat keputusan yang tepat. Mempelajari perwakilan spatiotemporal empat dimensi adalah amat mencabar kerana sifat stokastik pemandangan semula jadi, kebolehmerhatian setempat terhadap alam sekitar dan kepelbagaian pelbagai tugas hiliran. Pra-latihan memainkan peranan penting dalam mendapatkan perwakilan universal daripada sejumlah besar data, membolehkan pembinaan model asas dengan pengetahuan sejagat. Walau bagaimanapun, masih terdapat sedikit kajian pra-latihan mengenai ruang masa empat dimensi dalam pemanduan autonomi.

Reka bentuk dan pelaksanaan sistem pemanduan autonomi perlu menghadapi dan menangani pelbagai ketidakpastian, yang kebanyakannya dibahagikan kepada dua kategori: Ketidakpastian Aleatorik dan Ketidakpastian Epistemik. Ketidakpastian aleatorik timbul daripada sifat rawak yang wujud di dunia, seperti pergerakan pejalan kaki secara tiba-tiba atau tingkah laku kenderaan yang tidak dijangka. Ketidakpastian epistemik timbul daripada pengetahuan alam sekitar yang tidak lengkap, seperti kekurangan maklumat akibat oklusi atau pengehadan sensor. Untuk menangani ketidakpastian ini dengan berkesan, sistem pemanduan autonomi mesti boleh menggunakan pengalaman lalu untuk meramalkan kemungkinan keadaan masa depan dan membuat kesimpulan tentang kawasan yang tidak kelihatan. Kerja ini menangani cabaran ini melalui model dunia pra-latihan spatiotemporal empat dimensi, yang bertujuan untuk meningkatkan prestasi sistem pemanduan autonomi dalam tugasan persepsi, ramalan dan perancangan.

2 Kaedah

Untuk jujukan bingkai video T o1:T yang diperhatikan oleh sistem kamera sekeliling pemanduan autonomi, serta gelagat pakar yang sepadan a1:T dan label grid penghunian tiga dimensi y1:T, di mana label grid Pendudukan tiga dimensi boleh diperoleh menggunakan awan titik LiDAR 3D dan data sikap. Kami berhasrat untuk mempelajari perwakilan BEV padat daripada model dunia yang meramalkan grid penghunian 3D semasa dan masa hadapan daripada imej dan tindakan berbilang paparan yang lalu.

2.1 Model kebarangkalian siri masa

Untuk memberi model keupayaan untuk memodelkan ruang dan masa empat dimensi, kami mula-mula memperkenalkan dua pembolehubah berpotensi (h1:T, s1:T), di mana ht mewakili pembolehubah maklumat sejarah, termasuk Semua maklumat sejarah pada langkah masa t, st mewakili pembolehubah keadaan rawak, yang merupakan kunci kepada model meramalkan keadaan masa hadapan. ht dikemas kini melalui maklumat sejarah h1:t−1 dan keadaan rawak s1:t−1. Untuk meramalkan keadaan masa hadapan, kami mengikuti Model Ruang Keadaan Berulang (RSSM) dan membina taburan keadaan posterior q(st∣o≤t,a

Memandangkan dimensi ciri BEV adalah tinggi, kami menukarnya kepada vektor satu dimensi xt, dan kemudian sampel taburan Gaussian daripada (ht,at−1,xt) untuk menjana taburan keadaan posterior:

p(st ∣ht− 1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),

di mana st diparameterkan sebagai taburan normal dengan kovarians pepenjuru , taburan awal ditetapkan kepada s1∽N(0,I). (μϕ,σϕ) ialah perceptron berbilang lapisan dengan taburan keadaan posterior berparameter. CVPR 2024 ｜自动驾驶世界模型四维时空预训练

Jika tiada imej yang diperhatikan, model memperoleh pengedaran keadaan terdahulu berdasarkan maklumat sejarah dan tindakan yang diramalkan:

p(st∣ht−1,st−1)∽N(μθ(ht,a^t− 1) ,σθ(ht,a^t−1)I),di mana (μθ,σθ) meparameterkan taburan keadaan sebelumnya. ?? ialah rangkaian dasar yang digunakan untuk meramalkan tindakan a^t−1, berdasarkan maklumat sejarah ht−1 dan keadaan rawak st−1.

2.1.1 Pemesejan dinamik

自動運転のシーン理解では、将来の状態を正確に予測するために、物体の動きを考慮することが重要です。この動的情報を捕捉するために、動的情報の伝播中に運動知覚を実現するための運動パラメータを導入することによって物体の運動をモデル化することを提案します。モーション認識レイヤー正規化 (MLN) を導入します。動きの属性には、速度 v と相対時間間隔 Δt が含まれます。 (v,Δt) は平坦化され、2 つの線形層 (ξ1,ξ2) を介してアフィンベクトル γ と β に変換されます: γ=ξ1(v,Δt),β=ξ2(v,Δt)。次に、アフィン変換が実行されて、st=γ⋅LN(st)+β として表される、運動知覚の基礎となる確率的状態が取得されます。車両が移動すると、決定論的な履歴状態 ht によって動的メモリライブラリ h1:t が構築されます。ダイナミックメモリバンクを使用してクロスアテンションメカニズムの計算を実行することにより、決定論的な履歴状態 ht を取得できます。
決定論的な歴史的状態は ht+1=fθ(ht,st) です。

2.1.2 空間情報伝達

自動運転のシーン理解では、動的変化情報に加えて、空間構造情報も同様に重要です。連続したシーンフレームには通常、わずかな変更しか含まれておらず、シーンの主要なコンテンツは多くの場合、道路、樹木、交通標識などの静的なオブジェクトで構成されているため、この情報を処理するときに、入力画像を直接変換することができます。これにより、重要な空間構造情報が失われます。 1 ～ T フレームからフレーム o' をランダムに選択し、その BEV 特徴 b' を使用して、空間知覚構造を記述する潜在静的表現 b^=zθ(b') を構築します。空間を意識した静的表現 b^ と動的に変化する動き表現 st を組み合わせて、周囲のシーンの包括的な表現を取得します。

2.2 事前トレーニング補助タスク

自動運転には、周囲環境を包括的に理解することが不可欠です。私たちは、車両の周囲の環境を記述するために、物理世界を 3 次元の占有グリッド構造としてモデル化することを提案します。 3 次元占有グリッドデコーダは y^t=lθ(mθ(h~t,st),b^) に設定されます。ここで、mθ は 1 次元特徴を BEV 次元に拡張するネットワークであり、lθ は次のように使用されます。占有グリッド 3D 畳み込みネットワークを予測します。この 4 次元占有グリッドの事前トレーニングでは、シーンの静的な構造を捉えるだけでなく、時間の経過に伴うシーンの動的な変化も理解できるため、自動運転システムにより豊かで動的な環境の理解を提供できます。

2.3 タスクプロンプトメカニズム

4 次元の時空間表現は、ワールドモデルによって設計された事前トレーニングタスクを通じて学習できますが、異なる下流タスクは異なる情報に焦点を当てます。この問題を軽減するために、数ショットの画像認識のためのセマンティックキューと、マルチタスク学習における視覚的な例に基づいたキューにヒントを得て、さまざまなタスクに特定のキューを提供し、タスク関連の抽出をガイドする「タスクヒント」メカニズムが導入されました。特徴。異なるタスク間には意味的な相関関係があるため、大規模言語モデル gφ(⋅) (例: BERT、CLIP) を利用してこれらのタスクヒントを構築します。たとえば、3 次元占有グリッド再構成タスクのタスクプロンプトは、現在のシーンにより重点を置き、「タスクは現在のシーンの 3 次元占有グリッドを予測することです」に設定されています。プロンプト ptext を gφ(⋅) に入力して、プロンプトエンコーディング gφ(ptext) を取得します。次に、qφ(gφ(ptext)) で示される BEV の次元に拡張され、学習された時空間特徴と統合されます。

2.4 事前トレーニング目的関数

DriveWorld の事前トレーニング目標には、事後状態分布と事前状態分布の差 (つまり、カルバックライブラー (KL) 発散) を最小限に抑えること、および過去と過去の状態分布の間の差を最小限に抑えることが含まれます。将来の 3 次元占有グリッド (すなわち、クロスエントロピー損失 (CE)) およびアクション (すなわち、L1 損失) に関連する損失。このモデルを採用して、T タイムステップの入力を観察し、将来の 3 次元占有グリッドとアクションの L ステップを予測します。

3. 実験

3.1 実験設定

自動運転データセットについて nuScenes と OpenScenes で事前トレーニングし、nuScenes で微調整しました。マルチフレーム LiDAR 点群集約を使用して、高密度の 3D 占有グリッドラベルを取得します。

3.2 実験結果

結果の一部をここに示します。詳細な結果については、論文を参照してください。

CVPR 2024 ｜自动驾驶世界模型四维时空预训练

4. まとめ

DriveWorld は、ワールドモデルに基づく 4 次元時空の事前トレーニングを通じて、自動運転システムの周囲環境の理解と予測能力を向上させ、自動運転が直面する不確実性を軽減します。 DriveWorld は、時空間モデリングのためのメモリ状態空間モデルを提案しました。これには、タイミングを意識した表現を学習するための動的メモリストレージモジュールと、空間を意識した表現を学習するための静的シーン伝播モジュールが含まれています。モデルの適応性と柔軟性をさらに向上させるために、DriveWorld はタスクプロンプトメカニズムも導入しています。これにより、モデルは現在のタスク要件に応じてその表現を適応的に調整できるため、さまざまな自動運転タスクで最高のパフォーマンスを実現できます。

参考

[1]Chen Min、他、3D シーン再構築によるマルチカメラ統合事前トレーニング[J]、IEEE Robotics and Automation Letters、2024。

[2]Chen Min、他。 Occupancy-mae: マスクされた占有オートエンコーダを使用した自己教師付き事前トレーニング大規模 LIDAR 点群 [J]。IEEE Transactions on Intelligent Vehicles、2023 年。

EVOL イノベーションチームの紹介

Zhao Jian、中国電信人工インテリジェンス研究所のマルチメディア認知学習研究所 (EVOL Lab) のインテリジェンスディレクターおよび若手科学者、ノースウェスタン工科大学オプトエレクトロニクスおよびインテリジェンス研究所の研究員および博士指導者。シンガポール国立大学で博士号を取得して卒業。関心には、マルチメディア分析、ローカルセキュリティ、および身体化されたインテリジェントが含まれます。

T-PAMI×2 (IF: 24.314) と IJCV×3 (IF: 13.369) を含む、合計 60 以上の CCF-A 論文が公開されています。最初の発明者は 5 つの国内発明特許を承認しました。関連する技術成果は、Baidu、Ant Financial、Qihoo 360 を含むテクノロジー業界の大手企業 6 社によって適用され、大きな利益を生み出しています。中国科学技術協会と北京科学技術協会の「若手人材育成プロジェクト」に選出され、国家自然青少年科学基金など6つのプロジェクトを主催した。 Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023)、Wu Wenjun Artificial Intelligence Natural Science Award の最優秀賞 (2022 年 2 月 5 日)、シンガポールパターン認識機械知能協会 (PREMIA) Lee Hwee Kuan Award を受賞、 ACM Multimedia Paper Award の唯一の最優秀学生 (最初の作品、1/208、CCF-A カンファレンス、2018) は、重要な国際科学技術イベントで 7 回優勝しました。

北京画像グラフィック協会の理事、国際的に有名なジャーナル「Artificial Intelligence Advances」および「IET Computer Vision」の編集委員、「Pattern Recognition Letters」および「Electronics」の特別号のゲスト編集者を務めました。」、VALSE シニアフィールドチェアマン、および ACM Multimedia 2021 スコアラー。フォーラム会長、CICAI 2022/2023 エリア会長、CCBR 2024 フォーラム会長、中国人工知能協会/中国画像グラフィックス協会の上級会員、「チャレンジ」の審査員「Cup」大学生科学技術作品コンテスト、中国人工知能コンテスト専門委員会委員など

GitHub ホームページ: https://zhaoj9014.github.io

大学ホームページ: //m.sbmmt.com/link/2e36742b377be90ffbf553692153d9a1

Jin Lei 、北京郵電大学特別准教授研究者、主な研究分野には、コンピュータビジョン、データマイニング、パターン認識が含まれ、人間の姿勢推定、人間の行動認識、人体分析、その他の分野に関する詳細な研究が行われており、関連する成果はハイレベルの会議や雑誌で発表されています。 CVPR、AAAI、NIPS、ACMMM として出版されており、合計 40 以上の SCI/EI インデックス付き論文があり、その中には中国学士院の JCR エリア 1 の筆頭著者として出版された論文も含まれており、11 のハイレベル論文が含まれています。 of Sciences (IEEE Transactions on MultiMedia)、CCF-A カンファレンス CVPR、ACMMM 論文、中国科学院 JCR Area 2 (センサー)、IEEE Sensor Journal) 論文など。国立自然科学財団青少年基金を主催し、2つの国家重点研究開発プロジェクトと4つの自然科学財団一般プロジェクトに参加した。私たちは、トップカンファレンスを利用して ICCV2021/CVPR2023 ワークショップ (Anti-UAV Workshop & Challenge) を何度も開催してきました。全国大学バイオインターネット技術および応用「3 つの革新」コンペティション (北京郵電大学が認定するカテゴリー A コンペティション) で学生が優勝するよう指導します。

Min Cheng、北京大学コンピューターサイエンス学部出身、中国科学院コンピューター技術研究所特別研究助手彼の主な研究方向には、自動運転、身体化された知能、および 3 つの分野が含まれます。次元再構成に関する研究結果は、CVPR、ICCV、ICRA、RAL などのハイレベルの会議や学術誌に掲載されており、CCF-A 会議の筆頭著者としての CVPR、トップのロボット工学会議 ICRA、権威あるロボット工学雑誌 RAL などが含まれます。。数多くの国家的重要研究開発プロジェクトに参加。

Atas ialah kandungan terperinci CVPR 2024 |. Pra-latihan ruang masa empat dimensi model dunia pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!