Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは？［CEDEC 2024］-ゲームニュース-php.cn

　2024年8月21日，ゲーム開発者向けカンファレンス「CEDEC 2024」で，セッション「SIMA: Developing General AI Agents with Video Games／SIMA：ビデオゲームを用いた汎用型AIエージェントの開発」が行われた。

　このセッションでは，Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」（Scalable Instructable Multiworld Agent）の概要や，ゲームを用いたトレーニング方法，研究から得られた学びと課題，そして今後のプロジェクトの方向性などについて，同社のTechnology Strategy/AI R&D Data Strategy部門のリーダーを務めるアレクサンドル・ムファレク氏が紹介した。

Google DeepMindと，そのゲームDNA

　ムファレク氏は最初に，Google DeepMindのミッションを「人類に利益をもたらす責任あるAIを構築すること」，つまりAGI（汎用人工知能）を開発し，それが現実世界に存在する問題の安全な解決に役立つようにすることだと説明し，これまで15年近く研究を続けてきたことを紹介した。
　最初はボードゲームやAtari用のシンプルなゲームの研究から始め，やがて神経科学と脳の働きに関する理解からインスピレーションを得て，強化学習アルゴリズムの開発を手がけるようになったという。

　さらにそれらのプロジェクトから得た知識を応用して研究を進めた結果，同社のAIモデルである「AlphaProof」と「AlphaGeometry 2」を組み合わせることにより，2024年に開催された国際数学オリンピックにおける銀メダル水準の能力に到達したとのこと。
　そうした成果が，Googleの生成AI「Gemini」にも活用されていることも言及された。

　SIMAの研究にゲームを用いたのは，ムファレク氏自身やGoogle DeepMindのCEOを務めるDemis Hassabis氏を筆頭に，メンバーの大半が元ゲーム開発者だからだという。氏は「私達のDNAにはゲームが組み込まれている」と表現。またSIMAの研究とゲーム開発には，人々が考えている以上に共通点があるという。

　ムファレク氏は研究およびゲーム開発の進め方を以下のように説明した。すなわち，「仮説を立てて試行錯誤していく」と，やがて「大きな可能性を秘めた重要なピースを発見」する。しかし，「そのピースはある時点から機能しなくなり，なぜそうなったのか，もともと機能していた理由すら分からない状態に陥る」こととなる。そこから「うまくいかないすべての方法の発見」という長く反復的で厳しいプロセスに入っていくが，多くの忍耐とリソース，そして最初に立てた仮説への信頼と粘り強さがあれば，解決策が見つかるとのこと。そこからすべてが加速し，うまく噛み合ってまとまっていくという。

使用遊戲進行人工智慧研究的歷史

Mufarek 表示，遊戲長期以來一直為人工智慧研究的進步做出了貢獻，並將繼續成為推動研究前進的驅動力。具體來說，遊戲為人工智慧研究提供了「豐富、動態和複雜的環境，人們可以在其中互動和學習」、「可擴展和可重複的實驗」以及「受控和安全的測試」。

當談到可以互動和學習的豐富、動態和複雜的環境時，遊戲中提出的挑戰，例如解決虛擬空間中的移動謎題、針對對手製定策略以及適應不斷變化的情況，可以與遊戲中的挑戰進行比較。根據解釋，人工智慧模型可以幫助培養適應各種情況的高階解決問題的技能和決策能力。

對於可擴展和可重複的實驗，研究人員可以輕鬆創建遊戲環境的實例，同時運行許多模擬，並使用他們可以收集的大量數據來訓練和評估人工智慧模型。此外，實驗可以持續重複，確保研究結果的可靠性和有效性。

在受控和安全測試方面，評估人工智慧模型在各種虛擬情況下的性能可以幫助識別潛在的缺陷和限制，並改進演算法，而不會顯示與現實世界測試相關的風險。這對於自動駕駛汽車和醫療診斷等應用程式尤其重要，因為這些應用程式中的錯誤可能會造成嚴重後果。

也展示了人工智慧研究在 2010 年至 2024 年間透過遊戲實際取得進展的案例，當時強化學習和深度學習取得了巨大進步。 2010 年代初期，Google DeepMind 接受了使用 Atari 遊戲和DQN（深度 Q 網路）開發演算法的挑戰。結果，創建了一種演算法，在玩 50 多種 Atari 遊戲時展現出超人的表現。

2010 年代中後期，微軟使用 “Minecraft” 開發了一個人工智慧訓練計畫「Project Malmo」。此外，OpenAI 的人工智慧學習平台「Universe」 擁有非常通用的 UI，使得擴大遊戲規模並將其用於研究目的成為可能。

另外，在2020年代後期，用於《Dota 2》的AI系統“OpenAI Five”將出現，由DeepMind開發的AI代理“AlphaStar”將成為“中的頂級玩家” 《星際爭霸II》 甚至在複雜的遊戲中也開始使用人工智慧，例如獲勝遊戲。在此期間，Mufarek 專注於具有自訂動作空間的單一環境，並透過修改遊戲原始碼並為 AI 代理實現特殊 API 來創建客製化研究平台，他解釋說他已經這樣做了。

2017年，Google宣布的機器學習模型「Transformer」擴展了人工智慧的多功能性，包括總結對話句子、寫詩和使用大規模語言模型（LLM）分析數據，這都是透過聊天機器人實現的。隨著進一步泛化，使用人工智慧生成圖像、音訊和視訊已成為可能。

然而，穆法雷克指出了這種大規模人工智慧模型的局限性。換句話說，大規模的人工智慧模型沒有物理性，因此它們只存在於數位領域，無法在實體領域運作。因此，為了在物理領域利用人工智慧，需要透過實體感測器賦予其物理性，例如軟銀的Pepper和Waymo的自動駕駛汽車。

人工智慧研究的下一章：SIMA

Mufarek表示，DeepMind對SIMA進行了深入研究，以克服AI模型的上述限制。目標是「開發一種可以受語言調節的人工智慧代理」。換句話說，它不僅可以自主玩遊戲，還可以讓人類使用自然語言告訴他們想要他們做什麼。的目的是創建一個可以執行以下操作的人工智慧代理。

為實現這一目標而建立的假設是，“如果人工智慧代理可以在一種環境中學習某些東西，並使用該技能在另一種環境中做一些事情，那麼人工智慧將變得通用。”將會繼續下去。換句話說，當人類接觸新遊戲時，無需為每個遊戲準備專用的 AI 代理，單一 AI 代理可以繼承前一個遊戲中的角色和攝影機等操作，這意味著將其變為現實。

為此，DeepMind 與多家遊戲公司合作，為 AI 代理創建學習組合。具體來說，人工智慧代理是透過記錄人類玩《無人深空》、《瓦爾海姆》、《拆解》和《模擬山羊》等遊戲的遊戲來訓練的。此外，SIMA似乎可以透過給出基於文字的指令來實現。

SIMA培訓

也介紹了SIMA的學習流程是如何建構的。 Mufarek 表示，透過先加入遊戲和研究環境，SIMA 將能夠像人類一樣玩遊戲，而無需存取原始碼或特殊 API。

此外，遊戲和研究環境的入門將與遊戲開發商合作完成。這是為了澄清誰負責如何處理遊戲和 SIMA 專案中使用的數據。

Mufarek 表示，SIMA 計畫需要多樣化且非暴力的學習組合。因此，我們選擇了各種遊戲標題，包括視覺自然、工業、現實、科幻、或第一人稱或第三人稱視角的遊戲。它還結合了開放世界和沙盒元素，使 SIMA 能夠透過複雜的機制採取各種行動。

SIMA使用通用接口，據說是為了創建通用AI代理。 SIMA首先以自然語言書寫的文字形式接收人類的目標和指令，然後即時識別它們。然後，就像人類一樣，他們使用控制器或鍵盤和滑鼠玩遊戲。
Mufarek 解釋說，透過使用這樣的通用接口，SIMA 可以整合到任何遊戲中，無需自訂。

此外，還使用了兩種方法來建立 SIMA 訓練資料。一種是供單人玩遊戲、觀看影片並使用自然語言註釋要點。第二種方法涉及兩人團隊，其中一個人用自然語言給出指令，另一個人跟隨他們，拍攝遊戲影片並添加註釋。
SIMA資料集是鍵盤和滑鼠操作資料的相加。

這些資料集包括 SIMA 遊戲所需的技能，例如遊戲中的「創建物件」和「駕駛汽車」。由於收集了所有遊戲的這些技能，總數是巨大的，但對於 SIMA 項目來說仍然不夠。
Mufarek先生表示，數據和註釋的品質越高，對SIMA的改進就越有用，他將繼續做出這樣的努力。

一旦資料集準備好，SIMA 學習訓練就終於可以開始了。這裡使用的技術是“條件行為克隆”，它涉及透過模仿人類遊戲來學習。
其核心是支援預訓練模型的架構，但由於 Gemini 在開發時還不存在，因此它使用無分類器指導（CFG）來優先考慮口頭指令而不是視覺輸入。據透露，該公司幫助了孩子們學習理解自然語言並幫助他們很好地理解自然語言。

在評估 SIMA 結果的階段，創建了一個挑戰集來衡量各種任務的績效。任務有三個元素：第一個是SIMA 開始其操作的“初始狀態”，第二個是SIMA 必須遵循的“目標/指令”，第三個是確定任務是否執行的“初始狀態”已達到成功標準。 ”

SIMA 還使用「基本事實」（以程式設計方式確定任務是否已成功完成）、「光學字元辨識(OCR)」（根據螢幕上的文字變更提供有關所採取操作的回饋）以及人類識別據介紹，評估將從三個角度進行：“人工評估”，即檢查影片並確認任務是否成功完成。

SIMA 早期研究成果以及此方法的局限性

該專案的早期研究結果表明，SIMA可以完成各種遊戲中常見的任務，例如「前進」和「打開選單」。

他們還能夠成功完成不同遊戲中可能具有不同含義的任務，例如在「無人深空」中起飛太空船或在「拆解」中駕駛一艘船。

另一方面，使用三種單獨準備的方法來評估玩家是否能夠完成每個遊戲特定的任務。
一種是“專家”，用單場比賽的數據進行訓練，並在相同的環境中進行評估，並以 100% 的性能作為評估的基準。
第二個是“SIMA”，它訓練 10 個遊戲的數據，然後在其中一款遊戲的環境中進行測試和評估。
第三個是“Zero-Shot”，它訓練 10 個遊戲中 9 個的數據，並在剩餘 1 個遊戲的遊戲環境中進行測試和評估。

因此，SIMA 在學習所有 10 個標題時表現出比 Specialist 更高的性能，即使在零射擊的情況下，性能也接近 Specialist。
換句話說，穆法雷克先生非常滿意，因為他能夠確認「人工智慧代理可以在一種環境中學習一些東西，並利用該技能在另一種環境中做一些事情」。

然而，該計畫的目標是「開發一個以語言為條件的人工智慧代理」。因此，當在沒有自然語言註釋的情況下進行學習並進行測試時，SIMA 的表現顯著惡化。
第一次證明了「在許多大規模環境中訓練單一智能體會導致學習遷移和泛化」的假設。

也展示了SIMA在各個標題中的表現。根據 Mufarek 先生的說法，不同頭銜之間的泛化能力差異是由於執行任務所需的具體知識量的差異造成的

如果將使用CFG的指令加入SIMA中，可以獲得比沒有它更高的效能。然而，一旦超過某個閾值，性能似乎就會下降。

基於上述結果，Mufarek 先生表示“SIMA 確實取得了巨大的成功”，但它“還遠未達到完美”。這是因為任務完成率受環境影響很大，根本無法與人類玩耍相比。
不過，他表示，這正是他繼續進行 SIMA 研究的動力。

未來發展

最後，Mufarek先生對SIMA計畫的未來發展進行了展望。據稱，這將是下一代基於模擬的AI代理研究。這是利用遊戲進行AI研究的基礎，已經進行了很多年，看來還有很多工作要做。

到目前為止，我們一直在研究學習來提高AI代理的性能，但例如，由於《星海爭霸II》的更新，AlphaStar的性能有所惡化。
Mufarek 表示，“每次遊戲更新時都讓 AI 代理重新訓練是不現實的”，並相信通過使 SIMA 更加通用，AI 代理即使在新版本中也能表現良好遊戲中添加了一些功能。

此外，SIMA 擅長於可以在短時間內完成的任務，例如“拾柴火”和“放柴火”，但它並不總是擅長需要計劃、多個步驟和推理的任務，例如“建造一座房子”，情況並非如此。
不過，現在看來，雙子座可以成為SIMA的有力支持，例如，雙子座可以成為一名總監，將「建房子」這樣的長任務分解成短任務交給SIMA。