補齊Transformer規劃短板，田徑棟團隊的Searchformer火了-人工智慧-PHP中文網

補齊Transformer規劃短板，田徑棟團隊的Searchformer火了

WBOY

發布： 2024-02-26 08:01:22

轉載

532 人瀏覽過

Transformer 強大的泛化能力再次證明！

近年來，基於Transformer的結構在各種任務中展現出色的性能，引起了全球的關注。利用這種結構並結合大量數據，產生的大型語言模型（LLM）等模型可以很好地適用於實際應用場景。

儘管在某些領域取得了成功，但基於 Transformer 的結構和 LLM 仍然面臨挑戰，尤其是在處理規劃和推理任務方面。先前的研究表明，LLM 在應對多步驟規劃任務或高階推理任務時存在困難。

為了提升 Transformer 的推理和規劃性能，近年來研究社群也提出了一些方法。一個最常見且有效的方法是模擬人類的思考過程：先生成中間「思維」，然後再輸出回應。例如思考鏈（CoT）提示法就是鼓勵模型預測中間步驟，進行步驟的「思考」。思考樹（ToT）則使用了分支策略和評判方法，讓模型產生多個不同的思考路徑，然後從中選出最佳路徑。儘管這些技術通常是有效的，但也有研究表明，在許多案例中，這些方法會讓模型的表現下降，原因包括自我強制（self-enforcing）。

在某個資料集上表現良好的技術，可能在處理其他資料集時效果不佳。這可能是因為所需的推理類型發生了變化，例如從空間推理轉變為數學推理或常識推理。

相較之下，傳統的符號規劃和搜尋技術展現了出色的推理能力。此外，這些傳統方法所計算出的解決方案通常擁有形式上的保證，因為符號規劃演算法通常遵循著明確定義的基於規則的搜尋過程。

為了讓 Transformer 具備複雜推理能力，Meta FAIR 田徑棟團隊近日提出了 Searchformer。

補齊Transformer規劃短板，田徑棟團隊的Searchformer火了

論文標題：Beyond A∗: Better Planning with Transformers via Search Dynamics Bootstrapping
#論文地址：https://arxiv.org/pdf/2402.14083.pdf

Searchformer 是一種Transformer 模型，但針對迷宮導航和推箱子等多步驟規劃任務，它卻能計算出最優規劃且所用搜尋步驟數也能遠少於A∗ 搜尋等符號規劃演算法。

為了做到這一點，團隊提出了一種新方法：搜尋動態引導（search dynamics bootstrapping）。此方法首先是訓練一個Transformer 模型來模仿A∗ 的搜尋過程（如圖1 所示，然後對其進行微調，使其能用更少的搜尋步數找到最優規劃。

補齊Transformer規劃短板，田徑棟團隊的Searchformer火了

#更詳細地說，第一步，訓練一個模仿A∗ 搜尋的Transformer 模型。在這裡，該團隊的做法是針對隨機生成的規劃任務實例執行A* 搜尋。在執行A∗時，團隊會記錄執行的計算和最優規劃並將其整理成詞序列，即token。這樣一來，所得到的訓練資料集就包含了A∗ 的執行軌跡並編碼了有關A∗ 本身的搜尋動態的資訊。然後，訓練一個Transformer 模型，讓其能針對任意規劃任務沿最優規劃生成這些token 序列。

第二步，使用專家迭代（expert iteration）方法進一步提升使用上述經過搜尋增強的序列（包含A∗ 的執行軌跡）訓練的Searchformer。專家迭代方法可讓Transformer 憑藉較少的搜尋步驟產生最佳解。這個過程會得到一種神經規劃演算法，其隱含編碼在該Transformer 的網路權重之中，且它有很高的機率以少於A∗ 搜尋的搜尋步數找到最優規劃。比如說，在執行推箱子任務時，新模型能解答93.7% 的測試任務，同時搜尋步數比A∗ 搜尋平均少26.8%。

該團隊表示：這為Transformer 超越傳統符號規劃演算法鋪平了道路。

##實驗

#為了更好地理解訓練資料和模型參數量對所得模型表現的影響，他們進行了一些消融研究。

他們使用了兩類資料集訓練模型：一種的token序列中只包含解（solution-only，其中只有任務描述和最終規劃）；另一種則是搜尋增強型序列（search-augmented，其中包含任務描述、搜尋樹動態和最終規劃）。

實驗中，團隊使用了A∗ 搜尋的一種確定性和非確定性變體來產生每個序列資料集。

##迷宮導航

######################################################## #在第一個實驗中，團隊訓練了一組編碼器- 解碼器Transformer 模型來預測30×30 迷宮中的最優路徑。###

圖 4 表明，透過預測中間計算步驟，可在資料量少時獲得更穩健的效能表現。

補齊Transformer規劃短板，田徑棟團隊的Searchformer火了