南大俞揚深度解讀：什麼是「世界模型」？-人工智慧-PHP中文網

南大俞揚深度解讀：什麼是「世界模型」？

WBOY

發布： 2024-02-27 19:50:44

轉載

1067 人瀏覽過

隨著媒體狂炒Sora，OpenAI的介紹資料中稱Sora是「world simulator」，世界模型這個字又進入視野，但很少有文章來介紹世界模型。

這裡回顧一下什麼是世界模型，以及討論Sora是不是world simulator。

什麼是world models/世界模型

#當AI領域中講到世界/world、環境/environment這個字的時候，通常是為了與智能體/agent加以區分。

研究智能體最多的領域，一個是強化學習，一個是機器人領域。

因此可以看到，world models、world modeling最早也最常出現在機器人領域的論文中。

而今天world models這個詞影響最大的，可能是Jurgen 2018年放到arxiv的這篇以“world models”命名的文章，該文章最終以“Recurrent World Models Facilitate Policy Evolution」的title發表在NeurIPS'18。

南大俞揚深度解讀：什麼是「世界模型」？

論文中並沒有定義什麼是World models，而是類比了認知科學中人腦的mental model，引用了1971年的文獻。

南大俞揚深度解讀：什麼是「世界模型」？

mental model是人腦對週邊世界的鏡像

Wikipedia中介紹的mental model，很明確的指出其可能參與認知、推理、決策過程。並且說到mental model主要包含mental representations和mental simulation兩部分。

an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who sugginded thats small-scale models" of reality that it uses to anticipate events.

到這裡還是說得雲霧繚繞，那麼論文中的結構圖一目了然的說明了什麼是一個world model。

南大俞揚深度解讀：什麼是「世界模型」？

圖中縱向V->z是觀測的低維度表徵，用VAE實現，水平的M->h-> M->h是序列的預測下一個時刻的表徵，用RNN實現，這兩部分加起來就是World Model。

也就是說，World model的主要包含狀態表徵和轉移模型，這也剛好對應mental representations和mental simulation。

看到上面這張圖可能會想，這不是所有的序列預測都是world model了？

其實熟悉強化學習的同學能一眼看出來，這張圖的結構是錯誤（不完整）的，而真正的結構是下面這張圖，RNN的輸入不僅是z，還有動作action，這就不是通常的序列預測了（加一個動作會很不一樣嗎？是的，加入動作可以讓資料分佈自由變化，帶來巨大的挑戰）。

南大俞揚深度解讀：什麼是「世界模型」？

Jurgen的這篇論文屬於強化學習領域。

那麼，強化學習裡不是有很多model-based RL嗎，其中的model跟world model有什麼差別？答案是沒有差別，就是同一個東西。 Jurgen先說了一段

南大俞揚深度解讀：什麼是「世界模型」？

基本意思就是，不管有多少model-based RL工作，我是RNN先驅，RNN來做model是我發明的，我就是要搞。

在Jurgen文章的早期版本中，也說到很多model-based RL，雖然學了model，但並沒有完全在model中訓練RL。

南大俞揚深度解讀：什麼是「世界模型」？

沒有完全在model中訓練RL，實際上並不是model-based RL的model有什麼區別，而是model-based RL這個方向長久以來的無奈：model不夠準確，完全在model裡訓練的RL效果很差。這一問題直到近幾年才解決。

聰明的Sutton在很久以前就意識到model不夠準確的問題。在1990年提出Dyna框架的論文Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming（發表在第一次從workshop變成conference的ICML上），管這個model叫action model，強調預測action執行的結果。

RL一邊從真實資料中學習（第3行），一邊從model中學習（第5行），以防model不準確造成策略學不好。

南大俞揚深度解讀：什麼是「世界模型」？

可以看到，world model對於決策十分重要。如果能獲得準確的world model，那就可以透過在world model中就反覆試錯，找到現實最優決策。

這就是world model的核心作用：反事實推理/Counterfactual reasoning ，也就是說，即使對於資料中沒有見過的決策，在world model中都能推理出決策的結果。

了解因果推理的同學會很熟悉反事實推理這個詞，在圖靈獎得主Judea Pearl的科普讀物The book of why中繪製了一副因果階梯，最下層是「關聯」，也就是今天大部分預測模型主要在做的事；中間層是「幹預」，強化學習中的探索就是典型的干預；最上層是反事實，透過想像回答what if問題。 Judea為反事實推理繪製的示意圖，是科學家在大腦中想像，這與Jurgen在論文中使用的示意圖異曲同工。

南大俞揚深度解讀：什麼是「世界模型」？