一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題-人工智慧-PHP中文網

寫在前面&筆者的個人理解

近年來，自動駕駛因其在減輕駕駛員負擔和提高駕駛安全方面的潛力而越來越受到關注。基於視覺的三維佔用預測是一種新興的感知任務，適用於具有成本效益且對自動駕駛安全全面調查的任務。儘管許多研究已經證明，與基於物體為中心的感知任務相比，3D佔用預測工具具有更大的優勢，但仍存在專門針對這一快速發展領域的綜述。本文首先介紹了基於視覺的3D佔用預測的背景，並討論了這項任務中遇到的挑戰。接下來，我們從特徵增強、部署友善性和標籤效率三個面向全面探討了目前3D佔用預測方法的現況和發展趨勢。最後，總結了目前研究的趨勢，並提出了一些鼓舞人心的未來展望。

開源連結：https://github.com/zya3d/Awesome-3D-Occupancy-Prediction

總結來說，本文的主要貢獻如下：

據我們所知，這篇論文是第一篇針對基於視覺的自動駕駛3D佔用預測方法的全面綜述。
本文從特徵增強、計算友好和標籤高效三個角度對基於視覺的三維佔用預測方法進行了結構總結，並對不同類別的方法進行了深入分析和比較。
本文提出了基於視覺的3D佔用預測的一些鼓舞人心的未來展望，並提供了一個定期更新的github儲存庫來收集相關論文、資料集和程式碼。

圖3顯示了基於視覺的3D佔用預測方法的時序概述，圖4顯示了相應的分層結構分類法。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

部署友善方法

由於其廣泛的範圍和複雜的資料性質，直接從3D空間學習佔用表示是極具挑戰性的。與3D體素表示相關的高維度和密集的計算使得學習過程對資源的要求很高，這不利於實際部署應用。因此，設計部署友善的3D表示的方法旨在降低計算成本並提高學習效率。本節介紹了解決3D場景佔用估計中計算挑戰的方法，重點是開發準確且高效的方法，而不是直接處理整個3D空間。所討論的技術包括透視分解和從粗到細的細化，這些技術已在最近的工作中得到證明，以提高3D佔用預測的計算效率。

Perspective decomposition methods

透過將視點資訊從3D場景特徵中分離出來或將其投影到統一的表示空間中，可以有效地降低計算複雜度，使模型更加穩健和可推廣。這種方法的核心思想是將三維場景的表示與視點資訊解耦，從而減少特徵學習過程中需要考慮的變數數量，並降低計算複雜度。解耦視點資訊使模型能夠更好地泛化，適應不同的視點變換，而無需重新學習整個模型。

為了解決從整個3D空間學習的計算負擔，一個常見的方法是使用鳥瞰圖（BEV）和三視角圖（TPV）表示。透過將3D空間分解為這些單獨的視圖表示，計算複雜度顯著降低，同時仍可擷取用於佔用預測的基本資訊。關鍵思想是先從BEV和TPV的角度學習，然後透過結合從這些不同視圖中獲得的見解來恢復完整的3D佔用資訊。與直接從整個3D空間學習相比，這種透視分解策略允許更有效率和有效的佔用估計。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

Coarse-to-fine methods

直接從大規模3D空間學習高解析度細粒度全域體素特徵是耗時且具有挑戰性的。因此，一些方法已經開始探索採用從粗到細的特徵學習範式。具體而言，網路最初從圖像中學習粗略的表示，然後細化和恢復整個場景的細粒度表示。這兩步驟過程有助於實現對場景佔用率的更準確和有效的預測。

OpenOccupancy採用兩步驟方法來學習3D空間中的佔用表示。如圖14所示。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

預測3D佔用率需要詳細的幾何表示，並且利用所有3D體素標記與多視圖影像中的ROI進行互動將產生顯著的計算和記憶體成本。如圖15所示，Occ3D提出了一種增量令牌選擇策略，在交叉注意力計算過程中選擇性地選擇前景和不確定的體素令牌，從而在不犧牲精度的情況下實現自適應高效計算。具體地，在每個金字塔層的開始，每個體素標記被輸入到二進制分類器中，以預測體素是否為空，由二進制地面實況佔用圖來監督以訓練分類器。 PanoOcc提出在聯合學習框架內無縫整合物件偵測和語意分割，促進對3D環境的更全面理解。此方法利用體素查詢來聚合來自多幀和多視圖影像的時空訊息，將特徵學習和場景表示合併為統一的佔用表示。此外，它透過引入佔用稀疏性模組來探索3D空間的稀疏性，該模組在從粗到細的上採樣過程中逐漸稀疏佔用，顯著提高了儲存效率。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

Occ3D nuScenes資料集上部署友善方法的效能比較如表4所示。由於結果是從不同的論文中收集的，在主幹、圖像大小和計算平台方面存在差異，因此只能得出一些初步結論。通常，在類似的實驗設定下，由於資訊遺失較少，從粗到細的方法在性能方面優於透視分解方法，而透視分解通常表現出更好的即時性能和更低的記憶體使用率。此外，採用較重主幹和處理較大影像的模型可以獲得更好的精度，但也會削弱即時效能。儘管FlashOcc和FastOcc等方法的輕量級版本已經接近實際部署的要求，但它們的準確性仍需要進一步提高。對於部署友善的方法，透視分解策略和從粗到細策略都致力於在保持3D佔用預測準確性的同時，不斷減少計算負載。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

Label-efficient methods

在现有的创建精确占用标签的方法中，有两个基本步骤。第一个是收集与多视图图像相对应的激光雷达点云，并进行语义分割注释。另一种是利用动态物体的跟踪信息，通过复杂的算法融合多帧点云。这两个步骤都相当昂贵，这限制了占用网络利用自动驾驶场景中大量多视图图像的能力。近年来，神经辐射场（Nerf）在二维图像绘制中得到了广泛的应用。有几种方法以类似Nerf的方式将预测的三维占用绘制成二维地图，并在没有细粒度标注或激光雷达点云参与的情况下训练占用网络，这显著降低了数据标注的成本。

Annotation-free methods

SimpleOccupancy首先通过视图变换从图像特征中生成场景的显式3D体素特征，然后按照Nerf风格的方式将其渲染为2D深度图。二维深度图由激光雷达点云生成的稀疏深度图监督。深度图还用于合成用于自我监督的环绕图像。UniOcc使用两个单独的MLP将3D体素logits转换为体素的密度和体素的语义logits。之后，UniOCC按照一般的体积渲染来获得多视图深度图和语义图，如图17所示。这些2D地图由分割的LiDAR点云生成的标签进行监督。RenderOcc从多视图图像中构建类似于NeRF的3D体积表示，并使用先进的体积渲染技术来生成2D渲染，该技术可以仅使用2D语义和深度标签来提供直接的3D监督。通过这种2D渲染监督，该模型通过分析来自各种相机截头体的光线交点来学习多视图一致性，从而更深入地了解3D空间中的几何关系。此外，它引入了辅助光线的概念，以利用来自相邻帧的光线来增强当前帧的多视图一致性约束，并开发了一种动态采样训练策略来过滤未对准的光线。为了解决动态和静态类别之间的不平衡问题，OccFlowNet进一步引入了占用流，基于3D边界框预测每个动态体素的场景流。使用体素流，可以将动态体素移动到时间帧中的正确位置，从而无需在渲染过程中进行动态对象过滤。在训练过程中，使用流对正确预测的体素和边界框内的体素进行转换，以与时间帧中目标位置对齐，然后使用基于距离的加权插值进行网格对齐。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

上述方法消除了对显式3D占用注释的需要，大大减少了手动注释的负担。然而，他们仍然依赖激光雷达点云来提供深度或语义标签来监督渲染的地图，这还不能实现3D占用预测的完全自监督框架。

LiDAR-free methods

OccNerf不利用激光雷达点云来提供深度和语义标签。相反，如图18所示，它使用参数化占用字段来处理无边界的室外场景，重新组织采样策略，并使用体积渲染将占用字段转换为多相机深度图，最终通过多帧光度一致性进行监督。此外，该方法利用预先训练的开放词汇语义分割模型来生成2D语义标签，监督该模型将语义信息传递给占用字段。幕后使用单一视图图像序列来重建驾驶场景。它将输入图像的截头体特征视为密度场，并渲染其他视图的合成。通过专门设计的图像重建损失来训练整个模型。SelfOcc预测BEV或TPV特征的带符号距离场值，以渲染2D深度图。此外，原始颜色和语义图也由多视图图像序列生成的标签进行渲染和监督。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

这些方法避开了对来自激光雷达点云的深度或语义标签的必要性。相反，他们利用图像数据或预训练的模型来获得这些标签，从而实现3D占用预测的真正的自监督框架。尽管这些方法可以实现最符合实际应用经验的训练模式，但仍需进一步探索才能获得令人满意的性能。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

表5显示了Occ3D nuScenes数据集上标签高效方法的性能比较。大多数无注释方法使用2D渲染监督作为显式3D占用监督的补充，并获得了一定的性能改进。其中，UniOcc和RadOcc甚至在所有方法中分别获得了3和4的优异排名，充分证明了无注释机制可以促进额外有价值信息的提取。当仅采用2D渲染监督时，它们仍然可以实现相当的精度，说明了节省显式3D占用注释成本的可行性。无激光雷达的方法为3D占用预测建立了一个全面的自我监督框架，进一步消除了对标签和激光雷达数据的需求。然而，由于点云本身缺乏精确的深度和几何信息，其性能受到极大限制。

未来展望

在上述方法的推动下，我们总结了当前的趋势，并提出了几个重要的研究方向，这些方向有可能从数据、方法和任务的角度显著推进基于视觉的自动驾驶3D占用预测领域。

数据层面

获取充足的真实驾驶数据对于提高自动驾驶感知系统的整体能力至关重要。数据生成是一种很有前途的途径，因为它不会产生任何获取成本，并提供了根据需要操纵数据多样性的灵活性。虽然一些方法利用文本等提示来控制生成的驾驶数据的内容，但它们不能保证空间信息的准确性。相比之下，3D Occupancy提供了场景的细粒度和可操作的表示，与点云、多视图图像和BEV布局相比，有助于可控的数据生成和空间信息显示。WoVoGen提出了体积感知扩散，可以将3D占用映射到逼真的多视图图像。在对3D占用进行修改后，例如添加一棵树或更换一辆汽车，扩散模型将合成相应的新驾驶场景。修改后的三维占用记录了三维位置信息，保证了合成数据的真实性。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

自动驾驶的世界模型越来越突出，它提供了一个简单而优雅的框架，增强了模型基于环境输入观测来理解整个场景并直接输出合适的动态场景演化数据的能力。鉴于其能够熟练地详细表示整个驾驶场景数据，利用3D占用率作为世界模型中的环境观测具有明显的优势。如图19所示，OccWorld选择3D占用率作为世界模型的输入，并使用类似GPT的模块来预测未来的3D占用率数据应该是什么样子。UniWorld利用了现成的基于BEV的3D occ-pancy模型，但通过处理过去的多视图图像来预测未来的3D占用数据，这也构建了一个世界模型。然而，无论机制如何，生成的数据和真实数据之间不可避免地存在领域差距。为了解决这个问题，一种可行的方法是将3D占用预测与新兴的3D人工智能生成内容（3D AIGC）方法相结合，以生成更真实的场景数据，而另一种方法是将领域自适应方法相结合以缩小领域差距。

方法论层面

当涉及到3D占用预测方法时，在我们之前概述的类别中，存在着需要进一步关注的持续挑战：功能增强方法、部署友好方法和标签高效方法。特征增强方法需要朝着显著提高性能的方向发展，同时保持可控的计算资源消耗。部署友好的方法应该记住，减少内存使用和延迟，同时确保将性能下降降至最低。标签高效的方法应该朝着减少昂贵的注释需求的方向发展，同时实现令人满意的性能。最终目标可能是实现一个统一的框架，该框架结合了功能增强、部署友好性和标签效率，以满足实际自动驾驶应用的期望。

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題

此外，现有的单智能体自动驾驶感知系统天生无法解决关键问题，如对遮挡的敏感性、远程感知能力不足和视野有限，这使得实现全面的环境意识具有挑战性。为了克服单智能体的瓶颈，多智能体协同感知方法开辟了一个新的维度，允许车辆与其他交通元素共享互补信息，以获得对周围环境的整体感知。如图20所示，多智能体协同3D占用预测方法利用协同感知和学习的力量进行3D占用预测，通过在连接的自动化车辆之间共享特征，能够更深入地了解3D道路环境。CoHFF是第一个基于视觉的协作语义占用预测框架，它通过语义和occupancy任务特征的混合融合，以及车辆之间共享的压缩正交注意力特征，改进了局部3D语义占用预测，在性能上显著优于单车系统。然而，这种方法往往需要同时与多个代理进行通信，面临准确性和带宽之间的矛盾。因此，确定哪些代理最需要协调，以及确定最有价值的协作领域，以实现准确性和速度之间的最佳平衡，是一个有趣的研究方向。

任务层面

在当前的3D占用基准中，某些类别具有明确的语义，如“汽车”、“行人”和“卡车”。相反，“人造”和“植被”等其他类别的语义往往是模糊和笼统的。这些类别包含了广泛的未定义语义，应该细分为更细粒度的类别，以提供驾驶场景的详细描述。此外，对于以前从未见过的未知类别，它们通常被视为一般障碍，无法根据人类提示灵活扩展新的类别感知。对于这个问题，开放词汇任务在2D图像感知方面表现出了强大的性能，并且可以扩展到改进3D占用预测任务。OVO提出了一个支持开放词汇表3D占用预测的框架。它利用冻结的2D分割器和文本编码器来获得开放词汇的语义参考。然后，采用三个不同级别的比对来提取3D占用模型，使其能够进行开放词汇预测。POP-3D设计了一个自监督框架，在强大的预训练视觉语言模型的帮助下，结合了三种模式。它方便了诸如零样本占用分割和基于文本的3D检索之类的开放式词汇任务。

感知周围环境的动态变化对于自动驾驶中下游任务的安全可靠执行至关重要。虽然3D占用预测可以基于当前观测提供大规模场景的密集占用表示，但它们大多局限于表示当前3D空间，并且不考虑周围物体沿时间轴的未来状态。最近，人们提出了几种方法来进一步考虑时间信息，并引入4D占用预测任务，这在真实的自动驾驶场景中更实用。Cam4Occ首次使用广泛使用的nuScenes数据集为4D占用率预测建立了一个新的基准。该基准包括不同的指标，用于分别评估一般可移动物体（GMO）和一般静态物体（GSO）的占用预测。此外，它还提供了几个基线模型来说明4D占用预测框架的构建。尽管开放词汇3D占用预测任务和4D占用预测任务旨在从不同角度增强开放动态环境中自动驾驶的感知能力，但它们仍然被视为独立的任务进行优化。模块化的基于任务的范式，其中多个模块具有不一致的优化目标，可能导致信息丢失和累积错误。将开集动态占用预测与端到端自动驾驶任务相结合，将原始传感器数据直接映射到控制信号是一个很有前途的研究方向。

以上是一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題的詳細內容。更多資訊請關注PHP中文網其他相關文章！