ST-P3：端到端時空特徵學習的自動駕駛視覺方法-人工智慧-PHP中文網

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

王林

發布： 2023-04-09 18:11:10

轉載

1227 人瀏覽過

arXiv論文“ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning“，22年7月，作者來自上海交大、上海AI實驗室、加州聖地亞哥分校和京東公司的北京研究院。

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

提出一種時空特徵學習方案，可以同時為感知、預測和規劃任務提供一組更具代表性的特徵，稱為ST-P3。具體而言，提出一種以自車為中心對齊（egocentric-aligned）的累積技術，在感知BEV轉換之前保留3-D空間中的幾何信息；作者設計一種雙路（dual pathway ）模型，將過去的運動變化考慮在內，用於未來的預測；引入一個基於時域的細化單元，補償為規劃的基於視覺元素識別。原始碼、模型和協定詳細資料開源https://github.com/OpenPerceptionX/ST-P3.

開創性的LSS方法從多視圖攝影機中提取透視特徵，透過深度估計將其提升到3D，並融合到BEV空間。兩個視圖之間的特徵轉換，其潛深度預測至關重要。

將二維平面資訊提升到三維需要附加維度，也就是適合三維幾何自主駕駛任務的深度。為了進一步改進特徵表示，自然要將時域資訊合併到框架中，因為大多數場景的任務是視訊來源。

如圖描述ST- P3整體框架：具體來說，給定一組周圍的攝影機視頻，將其輸入主幹生成初步的前視圖特徵。執行輔助深度估計將2D特徵轉換到3D空間。以自車為中心對齊累積方案，首先將過去的特徵對齊到目前視圖座標系。然後在三維空間中聚合當前和過去的特徵，在轉換到BEV表示之前保留幾何資訊。除了常用的預測時域模型外，透過建構第二條路徑來解釋過去的運動變化，表現也進一步提升。這種雙路徑建模確保了更強的特徵表示，推斷未來的語義結果。為了實現軌跡規劃的最終目標，整合網路早期的特徵先驗知識。設計了一個細化模組，在不存在高清地圖的情況下，借助高級命令產生最終軌跡。

ST-P3：端到端時空特徵學習的自動駕駛視覺方法