位元組AI Lab核心技術贏得Habitat Challenge 2022主動導航冠軍，該技術將傳統方法與模仿學習相結合。-人工智慧-PHP中文網

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

物件目標導航 (Object Navigation) 是智慧機器人的基本任務之一。在這個任務中，智慧機器人在一個未知的新環境中主動探索並找到人類指定的某一類物件。物體目標導航任務面向未來家庭服務機器人的應用需求，當人們需要機器人完成某些任務時，例如拿一杯水，機器人需要先尋找並移動到水杯的位置，進而幫人們取水杯。

Habitat Challenge 挑戰賽由 Meta AI 等機構共同舉辦，是物體目標導航領域的知名賽事之一，截至 2022 今年已連續舉辦４屆，本次比賽共有 54 支參賽隊伍參加。在比賽中，位元組跳動 AI Lab-Research 團隊的研究者針對現有方法的不足，提出了一個全新的物件目標導航框架。該框架巧妙地將模仿學習與傳統方法結合，從一眾方法中脫穎而出獲得冠軍。在關鍵指標 SPL 中大幅超過了第二名及其他參賽隊伍的結果。歷史上該賽事的冠軍隊伍一般是 CMU、UC Berkerly、Facebook 等知名研究機構。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

Test-Standard 名單

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

Test-Challenge 名單

Habitat Challenge 競賽官網：https://aihabitat.org/challenge/2022/

Habitat Challenge 比賽LeaderBoard：https://eval.ai/web/challenges/challenge-page/1615/leaderboard

1 . 研究動機

目前的物件目標導航方法可以大致分為端到端的方法和基於地圖的方法兩大類。端到端的方法提取輸入的感測器資料的特徵，再送入一個深度學習模型中得到action，此類方法一般基於強化學習或模仿學習（如圖１Map-less methods）；基於地圖的方法一般會構建顯式或隱式地圖，然後透過強化學習等方法在地圖上選取一個目標點，最後規劃路徑並得到action（如圖１Map-based method）。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

圖１端到端的方法(上)和基於地圖的方法（下）流程示意圖

在經過大量實驗在比較兩類方法後，研究者發現這兩類方法各有優劣：端到端的方法不需要建構環境的地圖，因此更簡潔，不同場景的泛化能力更強。但由於網路需要學習編碼環境的空間訊息，依賴大量的訓練數據，且難以同時學習一些簡單的行為，例如在目標物體附近停下來。而基於地圖的方法使用柵格來儲存特徵或語義，具有顯式空間訊息，因此這類行為的學習門檻較低。但它非常依賴準確的定位結果，而且在一些如樓梯等環境中，需要人工設計感知和路徑規劃策略。

基於上述結論，位元組跳動 AI Lab-Research 團隊的研究者們希望將兩類方法的優勢結合起來。然而這兩類方法的演算法流程差異很大，難以直接組合；此外也很難設計出一種策略直接融合兩種方法的輸出。因此研究者設計了一種簡單但有效的策略，使兩類方法根據機器人的狀態交替進行主動探索和物體搜索，從而將各自的優勢最大程度地發揮出來。

2. 競賽方法

演算法主要有兩個分支組成：基於機率地圖的分支和端到端的分支。演算法的輸入是第一視角的 RGB-D 影像和機器人位姿，以及需要尋找的目標物件類別，輸出是下一步動作 (action)。首先對 RGB 影像進行實例分割，並將其與其他原始輸入資料一起傳給兩個分支。兩個分支分別輸出各自的 action，並由一個切換策略決定最終輸出的 action。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

圖2 演算法流程示意圖

基於機率地圖的分支

基於機率地圖的分支借鑒了Semantic linking map[2] 的思想，對作者原來發表在IROS 機器人頂會的論文[3]的方法進行了簡化。此分支根據輸入的實例分割結果、深度圖和機器人位姿，一方面建立 2D 語意地圖；另一方面基於預先學習的物件間關聯機率，對一張機率地圖進行更新。

機率地圖的更新方式包括以下幾種：當檢測到目標物體但沒有足夠把握時(置信機率confidence score 低於閾值)，此時應該繼續靠近觀察，因此機率地圖上相應區域的機率值應該提高（如圖3 上方所示）；同理，如果檢測到和目標物體有關聯的物體（例如桌子和椅子放在一起的機率比較高），則相應區域的機率值也會提高（如圖3 下方）。演算法透過選擇機率最高的區域作為目標點，鼓勵機器人靠近潛在目標物體以及關聯物體進一步觀察，直到找到置信機率高於閾值的目標物體。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

圖3 機率地圖更新方式示意圖

端到端的分支

端對端分支的輸入包括RGB-D 影像、實例分割結果、機器人位姿，以及目標物件類別，並直接輸出action。端對端分支的主要作用是引導機器人像人類一樣尋找物體，因此採用了 Habitat-Web[4] 方法的模型和訓練流程。此方法基於模仿學習，透過在訓練集中收集人類尋找物體的範例樣本訓練網路。

切換策略

切換策略主要根據機率地圖和路徑規劃的結果，在機率圖分支和端對端分支輸出的兩個action 中選擇一個作為最終輸出。當機率地圖中沒有機率大於閾值的柵格，機器人需要對環境進行探索；當地圖上無法規劃出可行路徑時，此時機器人可能處於一些特殊環境（如樓梯），這兩種情況下會採用端到端分支，使機器人具備足夠的環境適應能力。其他情況則選擇機率圖分支，充分發揮其在尋找目標物體方面的優勢。

此切換策略的效果如影片所示，機器人一般情況下利用端到端分支高效地探索環境，一旦發現了可能的目標物體或關聯物體，則切換到機率地圖分支靠近觀察，如果目標物體的置信機率大於閾值，則在目標物體處停下來；否則該區域的機率值會不斷降低，直到沒有機率大於閾值的柵格，機器人重新切換回端到端繼續探索。

從影片中可以看出，這種方法兼具了端到端方法和基於地圖的方法的優勢。兩個分支各司其職，端到端方法主要負責探索環境；機率地圖分支負責靠近感興趣區域進行觀察。因此該方法不僅能夠在複雜場景中探索（如樓梯），還降低了端到端分支的訓練要求。

3. 總結

針對物體主動目標導航任務，位元組跳動 AI Lab-Research 團隊提出了一種結合經典機率地圖與現代模仿學習的框架。該框架是對傳統方法與端到端方法相結合的成功的嘗試。在 Habitat 競賽中，位元組跳動 AI Lab-Research 團隊提出的方法大幅超出了第二名及其他參賽隊伍的結果，證明了演算法的先進性。透過將傳統方法引入目前主流的 Embodied AI 端到端方法，來進一步彌補端到端方法的一些不足，從而使得智慧機器人在幫助人、服務人的道路上更進一步。

近期，位元組跳動AI Lab-Research 團隊在機器人領域的研究也被CoRL、IROS、ICRA 等機器人頂會收錄，其中包括物件位姿估計、物件抓取、目標導航、自動組裝、人機互動等機器人核心任務。

【CoRL 2022】Generative Category-Level Shape and Pose Estimation with Semantic Primitives

論文地址：https://arxiv.org/abs/2210.01112

【IROS 2022】3D Part Assembly Generation with Instance Encoded Transformer

論文網址：https://arxiv.org/abs/2207.01779

【IROS 2022 】Navigating to Objects in Unseen Environments by Distance Prediction

論文地址：https://arxiv.org/abs/2202.03735

【EMNLP 2022】Towards Unifying Reference Expression Generation and Comprehension

論文網址：https://arxiv.org/pdf/2210.13076

【ICRA 2022】Learning Design and Construction with Varying-Sized Materials via Prioritized Memory Resets

論文地址：https://arxiv.org/abs/2204.05509

#【IROS 2021】Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation

#論文網址：httpshttps ://arxiv.org/abs/2108.02425

【IROS 2021】Learning to Design and Construct Bridge without Blueprint

#論文網址：https://arxiv.org /abs/2108.02439

4. 參考文獻

[1] Yadav, Karmesh, et al. "Habitat-Matterport 3D Semantics Dataset." arXiv preprint arXiv:2210.05633 (202) .

[2] Zeng, Zhen, Adrian Röfer, and Odest Chadwicke Jenkins. "Semantic linking maps for active visual object search." 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020. IEEE,

[3] Minzhao Zhu, Binglei Zhao, and Tao Kong. "Navigating to Objects in Unseen Environments by Distance Prediction." arXiv preprint arXiv:2202.03735 (20#arXiv preprint arXiv:2202.03735

(2022).

#[4] Ramrakhya, Ram, et al. "Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.