谷歌用大型模型訓練機器狗理解模糊指令，激動不已準備野餐-人工智慧-PHP中文網

人類和四足機器人之間簡單有效的互動是創造能幹的智慧助理機器人的途徑，其昭示著這樣一個未來：科技以超乎我們想像的方式改善我們的生活。對於這樣的人類-機器人互動系統，關鍵是讓四足機器人有能力回應自然語言指令。

最近大型語言模式（LLM）發展迅速，已經展現了執行高層規劃的潛力。然而，對 LLM 來說，要理解低層指令仍然很難，例如關節角度目標或馬達扭矩，尤其是對於本身就不穩定、必需高頻控制訊號的足式機器人。因此，大多數現有工作都會假設已為 LLM 提供了決定機器人行為的高層 API，而這就從根本上限制了系統的表現能力。

在CoRL 2023 論文《SayTap: Language to Quadrupedal Locomotion》中，GoogleDeepMind 與東京大學提出了一種新方法，該方法使用足部接觸模式作為連接人類的自然語言指令與輸出低階指令的運動控制器的橋樑。

谷歌用大型模型訓練機器狗理解模糊指令，激動不已準備野餐

論文網址：https://arxiv.org/abs/2306.07580
計畫網站： https://saytap.github.io/

#足部接觸模式（foot contact pattern）是指四足智能體在移動時足放在地上的順序和方式。他們基於此開發出了一種互動式四足機器人系統，讓使用者可以靈活地制定不同的運動行為，例如使用者可以使用簡單的語言命令機器人走、跑、跳或執行其它動作。

他們的貢獻包括一個 LLM prompt 設計、一個獎勵函數和一個能讓 SayTap 控制器使用可行的接觸模式分佈的方法。

研究顯示 SayTap 控制器能夠實現多種運動模式，而這些能力還能遷移用於真實機器人硬體。

SayTap 方法

#SayTap 方法使用了接觸模式模板，該模板是一個由0 和1 構成的4 X T 矩陣，其中0 表示智能體的腳在空中，1 表示腳落在地面。由上至下，此矩陣的每一行分別給出了左前足（FL）、右前足（FR）、左後足（RL）、右後足（RR）的足部接觸模式。 SayTap 的控制頻率為 50 Hz，即每個 0 或 1 持續 0.02 秒。這項研究將所需足部接觸模式定義為一個大小為 L_w、形狀為 4 X L_w 的循環滑動視窗。此滑動視窗會從接觸模式模板中提取四足的接地標誌，其指示了在時間 t 1 和 t L_w 之間機器人腳是在地面還是在空中。下圖給出了 SayTap 方法的概況。

谷歌用大型模型訓練機器狗理解模糊指令，激動不已準備野餐

SayTap 方法概述

SayTap 引入的所需足部接觸模式可作為自然語言使用者指令與運動控制器之間的新介面。運動控制器是用於完成主要任務的（例如遵循指定的速度）以及用於在特定時間將機器人腳放在地上，以使實現的足部接觸模式盡可能接近所需的接觸模式。

為了做到這一點，在每個時間步驟，運動控制器以所需的足部接觸模式為輸入，再加上本體感官資料（如關節位置和速度）及任務相關輸入（如特定於使用者的速度命令）。 DeepMind 使用了強化學習來訓練此運動控制器，並將其表徵成一個深度神經網路。在控制器的訓練期間，研究者使用了一個隨機生成器來採樣所需的足部接觸模式，然後優化策略以輸出能實現所需足部接觸模式的低層機器人動作。而在測試時間，則是使用 LLM 將使用者指令轉譯成足部接觸模式。

谷歌用大型模型訓練機器狗理解模糊指令，激動不已準備野餐

SayTap 使用足部接觸模式作為連接自然語言使用者指令和低層控制命令的橋樑。 SayTap 既支援簡單直接的指令（例如「向前慢速小跑」），也支援模糊的使用者指令（例如「好消息，我們這個週末去野餐！）。透過基於強化學習的運動控制器，能讓四足機器人根據命令做出反應。

研究表明：使用適當設計的prompt，LLM 有能力準確地將用戶命令映射到特定格式的足部接觸模式模板中，即便使用者指令是非結構化的或模糊的。在訓練中，研究者使用隨機模式產生器產生了多種接觸模式模板，它們有不同的模式長度T、基於給定步態類型G 在一個週期內的足地接觸比，使得運動控制器能夠在廣泛的運動模式分佈上學習，獲得更好的泛化能力。更多詳情請參閱論文。

#實驗結果

使用僅包含三種常見足部接觸模式上下文樣本的簡單prompt，LLM 可將各種人類命令準確地轉譯成接觸模式，甚至泛化用於那些沒有明確指定機器人應當如何行為的情況。

SayTap prompt 簡潔緊湊，包含四個組分：

(1) 用於描述LLM 應完成的任務的一般性說明；

(2) 步態定義，用於提醒LLM 專注於有關四足步態的基本知識以及它們與情緒的關聯；

(3) 輸出格式定義；

(4) 演示範例，讓LLM 學習在上下文中的情況。

研究者也設定了五種速度，讓機器人可以前進或後退、快速或慢速、或保持不動。

#遵循簡單和直接的命令

#下面的動圖展示了SayTap 成功執行直接清晰命令的範例。儘管某些命令並不包含在三個上下文示例之中，但仍然可以引導LLM 表達出其在預訓練階段學習到的內部知識，這會用到prompt 中的“步態定義模組”，即上面prompt 中第二個模組。

谷歌用大型模型訓練機器狗理解模糊指令，激動不已準備野餐

遵循非結構化或模糊的命令

但更有趣的是SayTap 處理非結構化和模糊指令的能力。只需一點提示即可將某些步態與一般情緒印象聯繫起來，例如機器人在聽到讓其興奮的消息（如“我們去野餐吧！”）後會上下跳躍。此外，它還能準確地呈現出場景，例如當被告知地面非常熱時，機器人會快速移動，讓腳盡量少接觸地面。

谷歌用大型模型訓練機器狗理解模糊指令，激動不已準備野餐

總結與未來工作

#SayTap 是四足機器人的互動式系統，其允許使用者靈活地制定不同的運動行為。 SayTap 引入了所需足部接觸模式作為自然語言與低階控制器之間的介面。這種新介面簡單直接又很靈活，此外，它既支援機器人遵循直接指令，也支援機器人遵從沒有明確說明機器人行為方式的命令。

DeepMind 的研究者表示，未來一大研究方向是測試隱含特定感受的指令是否能讓 LLM 輸出所需步態。在上面結果的步態定義模組中，研究者提供了一個將開心情緒與跳動步態聯繫起來的句子。如果能提供更多訊息，也許能增強 LLM 解釋指令的能力，例如解讀隱含的感受。在實驗評估中，開心情緒與跳動步態的連結能讓機器人在遵從模糊的人類指令行動時表現得充滿活力。另一個有趣的未來研究方向是引入多模態輸入，例如視訊和音訊。理論上講，從這些訊號轉譯而來的足部接觸模式也適用於這裡新提出的工作流程，並有望開創更多有趣的用例。

原文連結：https://blog.research.google/2023/08/saytap-language-to-quadrupedal.html

以上是谷歌用大型模型訓練機器狗理解模糊指令，激動不已準備野餐的詳細內容。更多資訊請關注PHP中文網其他相關文章！