神經網路也有空間意識！學習在Minecraft創建地圖，登上Nature子刊-人工智慧-PHP中文網

神經網路也有空間意識！學習在Minecraft創建地圖，登上Nature子刊

王林

發布： 2024-07-24 09:38:12

原創

596 人瀏覽過

這是人類首次證明神經網路可以創造自己的地圖。想像一下，你身處一個陌生的小鎮，即使一開始周圍的環境並不熟悉，你也可以四處探索，並最終在大腦中繪製出一張環境地圖，裡麵包含建築物、街道、標誌等相互之間的位置關係。這種在大腦中建立空間地圖的能力是人類更高級認知類型的基礎：例如，有理論認為，語言是由大腦中類似地圖的結構編碼的。然而，即使是最先進的人工智慧和神經網絡，也無法憑空建構這樣的地圖。計算生物學助理教授、Heritage Medical 研究所研究員Matt Thomson 說：「有一種感覺是，即使是最先進的人工智慧模型，也不是真正的智慧。它們不能像我們一樣解決問題；不能證明未經證實的數學結果，也不能產生新的想法。背部— 你給它一個輸入，它給你一個回應。建構空間地圖。這篇論文於 7 月 18 日發表在《自然 - 機器智能》（Nature Machine Intelligence）雜誌上。

神經網路也有空間意識！學習在Minecraft創建地圖，登上Nature子刊

1. 論文地址：https://www.nature.com/articles/s42256-024-00863-1

程式碼位址：https://github.com/jgornet/predictive-coding-recovers-maps

研究生James Gornet 帶領團隊在《我的世界》（Minecraft）中建構了環境，融入複雜元素（如樹木、河流、洞穴）。他們錄製了玩家隨機穿越該區域的視頻，並利用視頻訓練了一個配備預測編碼演算法的神經網路。

研究發現，神經網路學習了 Minecraft 世界中物體的組織方式，並能「預測」玩家在空間中移動時會遇到的環境。

神經網路也有空間意識！學習在Minecraft創建地圖，登上Nature子刊

預測編碼演算法與Minecraft 遊戲的結合成功地「教會」了神經網路如何創建空間地圖，並隨後使用這些空間地圖來預測視頻的後續幀，結果預測圖像與最終圖像之間的均方誤差僅為0.094%。

更重要的是，研究小組「開啟」了神經網路（相當於檢查內部結構），發現各種物體的表徵是相對於彼此進行空間儲存的。換句話說，他們看到了儲存在神經網路中的 Minecraft 環境地圖。

神經網路可以導航人類設計者提供給它們的地圖，例如使用 GPS 的自動駕駛汽車，但這是人類首次證明神經網路可以創建自己的地圖。這種在空間上儲存和組織資訊的能力最終將幫助神經網路變得更加“聰明”，使它們能夠像人類一樣解決真正複雜的問題。

這個專案展示了人工智慧真正的空間感知能力，而這在 OpenAI 的 Sora 等技術中仍然看不到，後者存在一些奇怪的故障。

James Gornet 是加州理工學院計算與神經系統（CNS）系的學生，該系涵蓋神經科學、機器學習、數學、統計學和生物學。

「CNS 專案確實為 James 提供了一個地方，讓他從事其他地方不可能完成的獨特工作，」Thomson 說。「我們正在採用一種生物啟發的機器學習方法，讓我們能夠在人工神經網路中反向設計大腦的特性，我們希望反過來了解大腦。在加州理工學院，我們有一個非常容易接受這類工作的社群。學習到的空間表示。

他們首先使用 Minecraft 中的 Malmo 環境創造了一個環境。物理環境的尺寸為40 × 65 格單位，囊括了視覺場景的三個面向：一個山洞提供了一個全局視覺地標，一片森林使得視覺場景之間具有相似性，而一條帶有橋樑的河流則限制了智能體如何穿越環境（圖1a）。

1. 智能體遵循路徑，路徑由 A* 搜尋確定，以找到隨機取樣位置之間的最短路徑，並接收每條路徑上的視覺圖像。

為了進行預測編碼，作者建構了一個編碼器 - 解碼器卷積神經網絡，編碼器採用 ResNet-18 架構，解碼器採用轉置卷積的 ResNet-18 架構（圖 1b）。編碼器 - 解碼器架構使用 U-Net 架構將編碼的潛在單元傳遞到解碼器中。
多頭注意力處理編碼潛在單元序列，以編碼過去的視覺觀察歷史。多頭注意力有 h = 8 個頭。對於維度為 D = C × H × W 的編碼潛在單元，在高度 H、寬度 W 和通道 C 的情況下，單一頭部的維度為 d = C × H × W/h。
預測編碼器採用均方誤差最小化策略，擬合預測觀測值與真實觀測值之間的差異。