軌跡預測的視覺方法綜述-人工智慧-PHP中文網

最近一個綜述論文“Trajectory-Prediction With Vision: A Survey ”，來自現代和安波福的公司Motional；不過它參考了牛津大學的綜述文章“Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey 」。

預測任務基本上分為兩部分：1）意圖，這是一項分類任務，為智體預先設計一組意圖類；通常將其視為一個監督學習問題，需要標註智體可能的分類意圖；2）軌跡，需要預測智體在後面未來幀中的一組可能位置，稱為路點；這構成了智體之間以及智體和道路之間的交互。

先前的行為預測模型可以分為三類：基於物理、基於機動和互動-感知模型。這句話可以改寫為：利用物理模型的動力學方程，為各種不同類型的智能體設計了可人工控制的運動。此方法無法對整個情境的潛在狀態進行建模，而通常只專注於一個特定的智能體。然而，在深度學習之前的時代，這種趨勢曾經是SOTA。基於機動的模型是基於智體預期運動類型的模型。交互-覺察的模型通常是一種基於機器學習的系統，對場景中的每個智體進行逐對推理，並為所有動態智體產生交互-覺察的預測。在場景中附近不同智體目標之間存在高度相關性。對複雜的智體軌跡注意模組進行建模，可以更好泛化。

預測未來的行動或事件可以表現為隱含的形式，其未來軌跡也可以是顯性的。智體的意圖可能受到以下因素的影響：a）智體自己的信念或意願（通常不會被觀察到，因此難以建模）；b）社會交互，可以用不同的方法進行建模，如社交池化、圖神經網路、注意力等；c）環境約束，如道路佈局，可透過高清（HD）地圖進行編碼；d）背景訊息，形式為RGB影像幀、雷射雷達點雲、光流、分割圖等。在另一方面，軌跡預測是一種更具挑戰性的問題，因為它涉及回歸（連續）而不是分類問題，與識別意圖不同。

軌跡和意圖需要從互動-覺察入手。一個合理的假設是，當試圖激進地駛入交通擁堵的高速公路時，一輛經過的車輛可能會緊急煞車。建模。最好在BEV空間進行建模，這樣可以進行軌跡預測，而且可以在影像視角（也稱為透視圖）中建模。這句話可以重寫為：「這是因為可以將感興趣區域（RoI）以網格的形式分配到一個專用的距離範圍內。」。然而，由於透視圖中的消失線，影像視角理論上可以無限地拓展RoI。 BEV空間更適合對遮蔽進行建模，因為它能更線性地建立運動模型。透過進行姿態估計（自車的平移和旋轉），可以簡單地進行自身運動的補償。此外，這個空間保留了智體的運動和尺度，即不管自車有多遠，周圍車輛將佔據相同數量的BEV像素；但影像視角的情況並非如此。為了預測未來，需要對過去有個了解。這通常可以透過追蹤來完成，也可以用歷史聚合BEV特徵來完成。

下圖是預測模型的一些元件和資料流程框圖：

軌跡預測的視覺方法綜述

#下表是預測模型的總結：

軌跡預測的視覺方法綜述

#以下基本上從輸入/輸出入手討論預測模型：

1）Tracklets：感知模組預測所有動態智體的當前狀態。這種狀態包括3-D中心、維度、速度、加速度等屬性。追蹤器可以利用這些數據並建立臨時的關聯，這樣每個追蹤器都能夠保存所有智體的狀態歷史。現在，每個tracklet都表示該智體過去的運動。由於其輸入僅包括稀疏的軌跡，因此這種預測模型形式是最簡單的。一個好的追蹤器能夠追蹤一個智體，即使在當前幀中被遮住。由於傳統的追蹤器是基於非機器學習的網絡，因此實現端到端模型變得十分困難。

2）原始感測器資料：這是一種端到端方法，模型獲取原始感測器資料訊息，並直接預測場景中每個智體的軌跡預測。這種方法可能有也可能沒有輔助輸出及其損失來監督複雜的訓練。這一類方法的缺點是，用於輸入的資訊密集，計算上昂貴。這是由於將感知、追蹤和預測三個問題合併在一起，使得模型在開發時變得困難，甚至更難達到收斂。

3）攝影機-vs- BEV：BEV方法處理來自頂視類似地圖的數據，攝影機預測演算法從自車角度感知世界，由於多種原因，後者通常比前者更具挑戰性；首先，從BEV感知可以獲得更廣闊的視野和更豐富的預測信息，相比之下攝像頭的視野較短，這限制了預測範圍，因為汽車無法做視野以外規劃；此外，攝像頭更容易被遮擋，因此與基於相機的方法相比，BEV方法受到的「部分可觀察性」挑戰更少；其次，除非雷射雷達數據可用，否則單目視覺使演算法難以推斷關注智體的深度，這是預測其行為的重要線索；最後，攝影機正在移動，這需要處理關注智體的運動和自車的運動，這與靜態BEV不同；提一句：作為一種缺點，BEV表徵方法仍然存在累積錯誤的問題；儘管在處理相機視圖方面存在固有的挑戰，但它仍然比BEV更實用，其實汽車很少能訪問顯示道路上BEV和關注智體位置的攝影機。結論是，預測系統應該能夠從自車的角度看待世界，包括光達和/或立體相機，其數據以3D方式感知世界可能是有利的；另一個重要的相關點是，每次若必須包括關注智體的位置以進行預測時，最好使用邊框位置，而不是純粹的中心點，因為前者的坐標隱含自車和行人之間的相對距離變化以及相機自運動；換句話說，隨著智身體接近自車，邊框變得更大，提供了對深度的附加（儘管是初步的）估計。

4）自運動預測：自車運動進行建模產生更準確的軌跡。另外一些方法使用深度網路或動力學模型對關注智體的運動進行建模，利用從資料集輸入計算的額外量，如姿勢、光流、語義圖和熱圖。

5）時域編碼：由於駕駛環境是動態的，有許多活動智體，因此有必要在智體時間維度進行編碼可建立一個更好的預測系統，將過去發生的事情與未來透過現在發生的事情連結；了解智體的來源有助於猜測智體下一步可能會去哪裡，大多數基於攝影機的模型處理較短的時間範圍，而對於較長的時間範圍處理，預測模型需要一個更複雜的結構。

6）社交編碼：為了回應「多智體」的挑戰，大多數表現最好的演算法使用不同類型的圖神經網路（GNN）來編碼智體之間的社會互動；大多數方法分別對時間和社會維度進行編碼－要麼從時間層面開始，然後考慮社會層面，要麼相反順序；有一種基於Transformer的模型，可以同時對兩個維度進行編碼。

7）基於預期目標的預測：行為意圖預測與場景上下文一樣，通常會受到不同預期目標的影響，並且應該透過解釋來推斷；對於以預期目標為條件的未來預測，這個目標會被建模為未來狀態（定義為目的地座標）或智體期望的運動類型；神經科學和電腦視覺的研究表明，人通常是目標-導向的智體；此外在做出決策的同時，人遵循一系列連續級的推理，最終制定出短期或長期計劃；基於此，這個問題可分為兩類：第一類是認知性的，回答智體要去哪裡的問題；第二個是任意性的，回答這個智體如何達成預期目標的問題。

8）多模態預測：由於道路環境是隨機的，一個先前的軌跡可以展開不同的未來軌跡；因此，解決「隨機彈性（stocasticity）」挑戰的實用預測系統會對問題的不確定性進行建模；儘管存在離散變數的潛空間建模的方法，但多模態僅應用於軌跡，完全顯示其在意圖預測方面的潛力；採用注意力機制，可用於計算加權。

以上是軌跡預測的視覺方法綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章！