像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規則-人工智慧-PHP中文網

Deepmind 旨在建立一個能夠學習直覺物理學的模型，並剖析模型實現這種能力的原因。

從 AlphaFold 到數學推理，DeepMind 一直在嘗試將 AI 和基礎科學結合。現在，DeepMind 又創建了一個可以學習簡單物理規則的新模型。

發展心理學家測驗分析了嬰兒如何透過目光來跟隨物體的運動。例如，當播放影片中有一個球突然消失時，孩子們會表現出驚訝。

DeepMind 的電腦科學家 Luis Piloto 及其同事希望為人工智慧 (AI) 開發類似的測試。該團隊使用立方體和球等簡單物體的動畫影片訓練了一個神經網絡，該模型透過從大量資料中發現模式來學習。研究論文於 7 月 11 日發表在《Nature Human Behaviour》。

像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規則

論文網址：https://www.nature.com/articles/s41562-022-01394 -8
資料集位址：https://github.com/deepmind/physical_concepts

該模型透過自動編碼和追蹤物件進行物理學習，因此命名為PLATO (Physics Learning through Auto-encoding and Tracking Objects)。 PLATO 接收來自視訊的原始影像和突出顯示場景中每個物件目標的影像版本。 PLATO 旨在開發物件物理特性的內部表徵，例如它們的位置和速度。

該系統接受了大約30 個小時的視訊訓練，這些影片展示了簡單的運動機制（例如一個球從斜坡上滾下來），並開發了預測這些物件在不同情況下行為的能力。特別地，PLATO 學習了連續性和穩固性，並確保目標的軌跡是不間斷的，物體形狀是持久的。隨著影片的播放，模型的預測會變得更加準確。

當播放帶有「不可能」事件的影片時，例如物體突然消失，PLATO 可以度量影片和它自己的預測之間的差異，從而提供一種「驚訝」的衡量標準。

Piloto 說：「PLATO 並非設計為嬰兒行為模型，但它可以測試關於人類嬰兒如何學習的假設。我們希望認知科學家最終可以使用它來模擬嬰兒的行為。」

英屬哥倫比亞大學的電腦科學家Jeff Clune 表示，「將AI 與人類嬰兒的學習方式進行比較是一個重要的研究方向。PLATO 的研究者手工設計了許多賦予人工智慧模型優勢的先驗知識。」 Clune 等研究人員正試圖讓程式開發自己的演算法來理解物理世界。

運用發展心理學的知識

為了在 AI 系統中追求更豐富的物理直覺，DeepMind 的研究團隊從發展心理學中汲取靈感。研究團隊建構了一個深度學習系統，整合了發展心理學的核心見解，即物理學是在離散物件及其相互作用的層面上理解的。

直覺物理學的核心依賴一組離散的概念（例如，物件的持久性、穩固性、連續性等），可以區分、操作和單獨探測。傳統的 AI 學習直覺物理的標準方法透過影片或狀態預測指標、二元結果預測、問答表現或強化學習任務來學習物理世界。這些方法似乎需要理解直覺物理學的某些方面，但並沒有明確地操作或策略性地探索一組明確的概念。

另一方面，發展心理學認為一個物理概念對應於一組未來如何展開的期望。例如人們期望物體不會神奇地從一個地方突然傳送到另一個地方，而是透過時間和空間追蹤連續的路徑，這就有了連續性的概念。因此，有一種測量特定物理概念知識的方法：違反期望 (VoE) 範式。

使用VoE 範式探索特定概念時，研究人員向嬰兒展示視覺上相似的陣列（稱為探測（probe）），這些陣列與物理概念一致（物理上可能）或不一致（物理上不可能）。在這個範式中，「驚訝」是透過凝視持續時間來衡量的。

像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規則

方法介紹

首先，DeepMind 提出了一個非常豐富的影片語料庫 ——Physical Concepts 資料集。該資料集包含 VoE 探測視頻，針對五個重要的物理概念，這些概念在發展心理學中被視為核心要素，包括連續性、目標持久性和穩固性。第四種是不可變性，用於捕捉某些目標屬性 (例如形狀) 不會改變的概念；第五個概念是方向慣性，涉及到運動物體在與慣性原理一致的方向上發生變化的期望。

最重要的是 Physical Concepts 資料集還包括一個單獨的視訊語料庫作為訓練資料。這些影片展示了各種程式生成的物理事件。

像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規則

圖2：用於訓練模型的視訊資料集範例

PLATO 模型架構

Deepmind 旨在建立一個能夠學習直覺物理學的模型，並剖析模型實現這種能力的原因。 PLATO 模型中實例化了 AI 領域的一些先進系統。

首先是目標個人化過程。 目標個人化過程將視覺的連續感知輸入切割成一組離散的實體，其中每個實體都有一組對應的屬性。在 PLATO 中，每個分段的視訊幀透過感知模組分解為一組目標程式碼（圖 3a-c），從而實現從視覺輸入到個體目標的映射。 PLATO 沒有學習分割場景，但給定一個分割目標，其學習一個壓縮表示。

其次，目標追蹤（或目標索引）為每個目標分配一個索引，從而實現跨時間目標感知和動態屬性計算之間的對應關係（圖3b，c）。在 PLATO 中，目標程式碼在目標緩衝區中的訊框上累積和追蹤（圖 3d）。

最後一個組件是這些被追蹤目標的關係處理，這個過程受到發展心理學中提出的「物理推理系統」的啟發，該系統可以動態地處理物體的表徵，產生新的表徵，這些表徵會受到物體與其他物體之間關係和互動的影響。

PLATO 學習目標記憶體和目標感知歷史之間的交互作用（圖 3d），以產生針對下一個目標的預測視訊幀並更新基於目標的記憶體。

像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規則

圖3：PLATO 包含兩個元件：感知模組（左）和動態預測（右）

實驗結果

在測試時，當使用五種不同的隨機種子進行訓練時，PLATO 在所有五個探測類別中都顯示出強大的VoE 效果。

像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規則

圖 5：PLATO 在 Physical Concepts 資料集的偵測中顯示出穩健的效果。

Physical Concepts 資料集中的訓練語料庫共包含 300000 個影片。用保守計算方法，大約需要 52 天的持續視覺體驗。從 AI 和開發的角度來看，這存在一個問題，即在測試中產生 VoE 效果實際上需要多少訓練資料。為了評估這一點，Deepmind 在大小逐漸減少的資料集上訓練了三個 PLATO 動態預測器的隨機種子（圖 6），計算了所有五個探測類別的 VoE 效應的總平均值。

在僅對50000 個範例進行訓練後，研究結果表明，在使用少至50000 個範例（相當於28 小時的視覺體驗）進行訓練後，Deepmind 的模型中出現了穩健的VoE 效果。

像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規則