Google DeepMind 用于 3D 虚拟环境的通用 AI 代理'SIMA”是什么？ [CEDEC 2024]-游戏新闻-PHP中文网

2024年8月21日，在游戏开发者大会“CEDEC 2024”上举办了分会场“SIMA：利用视频游戏开发通用人工智能代理”。

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは？［CEDEC 2024］

在本次会议中，我们将概述用于 3D 虚拟环境的 Google DeepMind 通用 AI 代理
“SIMA” （可扩展可指导的多世界代理）、使用游戏的训练方法、从研究中获得的学习和挑战以及未来的项目。公司技术战略/AI研发数据战略部门负责人Mufarek介绍了公司的发展方向等信息。

Google DeepMind 及其游戏 DNA

Mufarek 最初将 Google DeepMind 的使命描述为“构建造福人类的负责任的人工智能”，或者开发可用于安全解决现实世界问题的 AGI（通用人工智能），他解释说，他的目标是让它变得有用，并且。介绍了他近15年来所做的研究。他开始研究雅达利的棋盘游戏和简单游戏，并最终开始开发强化学习算法，其灵感来自于神经科学和他对大脑工作原理的理解。

此外，通过应用从这些项目中获得的知识并进行研究，通过结合公司的人工智能模型 “AlphaProof”

和
“AlphaGeometry 2” ，可以将从这些项目中获得的知识应用到2024年国际数学奥林匹克竞赛。据说他的能力已经达到了银牌水平。还有人提到，这样的结果也被用在了谷歌的生成式AI “Gemini”中。

SIMA 在研究中使用了游戏，因为其大多数成员，包括 Mufarek 本人和 Google DeepMind 首席执行官 Demis Hassabis，都是前游戏开发人员。他说：“游戏是我们的 DNA。”他还表示，SIMA 的研究和游戏开发的共同点比人们想象的要多。

Mufarek先生解释了研究和游戏开发的过程如下。换句话说，如果你“提出一个假设并经历反复试验”，你最终将“发现一个具有巨大潜力的重要作品”。然而，“在某些时候，这部分会停止工作，你最终会陷入一种状态，你甚至不知道它为什么会发生，也不知道它最初为什么会起作用。”从那里开始，这是一个漫长、反复、艰苦的过程，“发现所有行不通的方法”，但只要有足够的耐心、资源、对最初假设的信心和坚持，你就会发现关于。一切都从那里开始加速，良好地啮合并融合在一起。

게임을 이용한 AI 연구의 역사

뮤파렉씨는 게임이 오랫동안 AI 연구의 진보에 공헌해 왔으며 앞으로도 연구를 추진하는 원동력이 계속 될 것이라고 말한다. 구체적으로 게임은 AI 연구에 대해 "대화하여 학습할 수 있는 풍부하고 동적이고 복잡한 환경" "스케일러블하고 재현 가능한 실험" "관리된 안전한 테스트"를 제공한다는 것.

대화하고 학습할 수 있는 풍부하고 동적이고 복잡한 환경에 관해서는 가상 공간에서의 이동 퍼즐의 해결, 대전 상대에 대한 전략의 입안, 변화하는 상황에의 적응 등 게임에서 제시되는 과제가 현실 세계의 다양 상황에 적응할 수 있는 AI 모델의 고도의 문제 해결 스킬과 의사결정 능력을 개발하는데 도움이 된다는 설명이 이루어졌다.

확장 가능하고 재현 가능한 실험의 경우 연구자는 게임 환경의 인스턴스를 쉽게 만들고 많은 수의 시뮬레이션을 동시에 실행할 수 있으며 엄청난 양의 데이터를 사용하여 AI 모델을 교육하고 평가할 수 있습니다. 를 들었다. 또한 실험을 일관되게 복제할 수 있기 때문에 연구결과의 신뢰성과 타당성이 보장된다는 것이다.

관리되는 안전한 테스트의 경우 가상 공간의 다양한 상황에서 AI 모델의 성능을 평가하여 잠재적 결함 및 제한을 파악하고 실제 환경에서의 테스트와 관련된 위험 없이 알고리즘을 개선할 수 있음 표시되었습니다. 이것은 특히 오류가 심각한 결과를 초래할 수 있는 자율주행이나 의료진단 등의 앱에 중요하다고 한다.

강화 학습 및 딥 러닝이 비약적으로 향상된 2010년부터 2024년 사이에 게임에 의해 AI 연구가 실제로 진보한 사례도 나타났다. 2010년대 초반에는 Google DeepMind가 Atari용 게임과「DQN」(Deep Q-Network)을 이용하여 알고리즘 개발에 도전. 그 결과, 50 타이틀 이상의 Atari용 게임 플레이에서 초인적인 퍼포먼스를 발휘하는 알고리즘이 완성되었다.

　2010年代中盤から後半にかけては，Microsoftが「Minecraft」を用いたAI訓練プロジェクト「Project Malmo」を展開。またOpenAIのAI学習プラットフォーム「Universe」は非常に汎用的なUIを備えていたため，ゲームを研究用にスケールアップして用いることが可能となった。

　また2020年代後半には，「Dota 2」用のAIシステム「OpenAI Five」が登場したり，DeepMindが開発したAIエージェント「AlphaStar」が「StarCraft II」にてトッププレイヤーに勝利したりと，複雑なゲームにおいてもAIが活用されるようになっていった。ムファレク氏はこの時期について，カスタマイズされたアクションスペースを備える単一の環境にフォーカスし，ゲームのソースコードを変えたり，AIエージェントに特殊なAPIを実装したりしてカスタマイズした研究用のプラットフォームを作っていたと説明した。

　そして，2017年にGoogleが発表した機械学習モデル「Transformer」により，AIの汎用性が拡大され，大規模言語モデル（LLM）を用いた対話文章の要約や詩の執筆，データ分析などがチャットボットを介して可能となった。さらなる汎用化により，画像や音声，映像もAIによって生成可能になっていった。

　しかしムファレク氏は，そうした大規模AIモデルの限界を指摘する。つまり大規模AIモデルには身体性がないため，あくまでもデジタル領域内のものであり，物理的な領域では動作できない。そのためAIを物理的な領域で活用するには，ソフトバンクの「Pepper」やWaymoの自動運転車などのように，物理的なセンサーなどを介して身体性を持たせる必要が生ずるのである。

AI研究の次なるチャプター：SIMA

　ムファレク氏によると，上記のAIモデルの限界という課題を乗り越えるべく，DeepMindではSIMAの研究を進めたという。その目標は「言語によって条件付けられるAIエージェントを開発すること」で，つまり自律的にゲームをプレイするだけでなく，人間が自然言語を使って「何をしてほしいか」を伝えることにより，それを実行できるAIエージェントの実現を目指したとのこと。

　そうした目標を実現するために立てられた仮説は，「ある1つの環境でAIエージェントが何かを学習し，そのスキルを使って別の環境で何かができるようになれば，AIの汎用化が進む」というものだった。すなわちゲーム1タイトルごとに専用のAIエージェントを用意するのではなく，人間が新しいゲームに触れたとき，キャラクターやカメラなどの操作をそれまでプレイしてきたゲームから引き継げるようなことを1つのAIエージェントで実現させるというわけである。

　そのためにDeepMindは，いくつかのゲーム企業と提携してAIエージェントの学習用ポートフォリオを作成したという。具体的には「No Man's Sky」「Valheim」「Teardown」「Goat Simulator」などの人間によるゲームプレイを録画してAIエージェントに学習させたという。さらにテキストベースで指示を与えることにより，SIMAを実現できたそうだ。

SIMA 교육

SIMA의 학습 파이프라인을 어떻게 구축해 갔는지에 대해서도 소개가 이루어졌다. 무파렉씨에 의하면 최초로 게임과 연구 환경의 온보딩을 실시하는 것으로, 소스 코드에의 액세스나 특별한 API가 없어도, SIMA는 인간과 같이 게임을 플레이할 수 있게 된다고 한다.

또 게임과 연구 환경의 온보딩은, 그 게임의 개발자의 협력하에 실시한다고 한다. 이는 그 게임 및 SIMA 프로젝트에서 사용하는 데이터를 어떻게 취급하는지 등에 대한 책임의 위치를 명확히 하기 위해서이다.

Mufarek에 따르면 SIMA 프로젝트에는 다양하고 비폭력적인 학습 포트폴리오가 필요했다는 것. 따라서 시각적으로 자연스러운 것, 공업적인 것, 현실적인 것, SF적인 것, 혹은 1인칭 시점, 3인칭 시점 등 다양한 게임 타이틀을 선출. 또한 복잡한 메커니즘을 통해 SIMA가 다양한 행동을 취할 수 있도록 오픈 월드와 샌드박스의 요소도 채용했다고 한다.

SIMA의 인터페이스에는 범용적인 것을 채용하고 있지만, 그것은 범용적인 AI 에이전트를 실현하기 위한 것이었다고 한다. SIMA는 최초로 인간으로부터 자연 언어로 기록된 텍스트로 목표나 지시를 받아 실시간으로 인식한다. 그리고 인간처럼 컨트롤러나 키보드 & 마우스를 사용하여 게임을 플레이해 간다.
뮤파렉 씨는 이러한 범용 인터페이스를 사용함으로써 커스터마이징하지 않고 어떤 게임에도 SIMA를 통합할 수 있다고 설명했다.

또, SIMA의 학습 데이터의 작성에는, 2개의 수법이 채취되었다. 하나는 인간 1명이 게임을 플레이하고, 그 영상을 보고 요소요소의 지시 등을 자연언어로 하는 어노테이션을 해 나간다는 것. 두 번째는 두 사람 한 쌍으로 실시하는 것으로, 한 명이 자연 언어로 지시를 주고, 다른 한 명이 그것을 따르는 플레이 영상을 촬영하고, 어노테이션을 붙인다는 것이다.
이에 키보드 & 마우스 등의 조작 데이터를 더한 것이 SIMA의 데이터 세트이다.

이러한 데이터세트에는 게임중의 「오브젝트를 만드는」「자동차를 운전한다」라고 하는 SIMA의 게임 플레이에 필요한 스킬이 포함된다. 이들 스킬을 모든 타이틀분 모은 결과, 전체적으로는 방대한 수가 되었다고 하지만, 그래도 SIMA 프로젝트에 대해서는 너무 충분하지 않다고 한다.
무파렉씨는 데이터나 어노테이션이 고품질일수록 SIMA의 개선에 도움이 되고 향후에도 이러한 노력을 계속해 나갈 것이라고 말했다.

데이터 세트가 준비되면 드디어 SIMA의 학습 트레이닝이 시작된다. 여기서 사용하는 것이 인간의 플레이를 흉내내서 학습시키는 '조건부 행동 클로닝'이다.
그 핵심이 되는 것은 사전 학습 모델을 지원하는 아키텍처이지만, 그것을 개발한 시점에서는 아직 Gemini가 존재하지 않았기 때문에, Classifier-Free Guidance(CFG)를 이용해 시각 입력보다 언어적인 명령을 우선 하도록 학습시키고 자연어를 잘 이해할 수 있도록 지원한 것이 밝혀졌다.

SIMA가 내놓은 성과를 평가하는 페이즈에서는, 다양한 태스크에 있어서의 퍼포먼스를 측정하기 위해, 챌린지 세트를 작성했다고 한다. 작업에는 세 가지 요소가 있으며, 첫 번째는 SIMA가 행동을 시작하는 "초기 상태", 두 번째는 SIMA가 따라야 할 "목표 / 지시", 세 번째는 작업을 달성 할 수 있는지 여부를 결정합니다. 성공기준'이다.

또한 SIMA는 프로그램적으로 작업이 성공적으로 완료되었는지 여부를 결정하는 "Ground Truth", 화면의 텍스트 변경으로 인해 어떤 행동을 취했는지 피드백하는 "광학 문자 인식 (OCR)"및 인간 가 영상을 확인하고 태스크가 정상적으로 완료되었는지를 확인하는 '인간에 의한 평가'의 3가지 관점에서 평가되는 것도 소개되었다.

SIMA 초기 연구 결과, 그리고이 접근법의 제약

프로젝트 초기의 연구 결과로부터, SIMA는 다양한 게임에서 일반적으로 실행할 수 있는 태스크, 예를 들면 「앞으로 진행한다」「메뉴를 열기」라고 하는 행동을 완료할 수 있는 것이 판명되었다.

또, 게임마다 다른 의미가 될 가능성이 있는 태스크, 예를 들면 「No Man's Sky」에 있어서의 우주선의 이륙이나, 「Teardown」에 있어서의 보트의 조종이라고 하는 행동등도, 잘 완료할 수 있었다.

한편, 각 게임 고유의 태스크를 완료할 수 있었는지 아닌지에 관해서는, 별도 준비한 3개의 방법으로 평가했다고 한다.
1개는 단독의 게임의 데이터를 학습시켜, 같은 환경에서 평가한 「Specialist」로, 이것을 100%의 퍼포먼스로서 평가의 베이스 라인으로 한다.
2번째는, 10타이틀의 게임의 데이터를 학습시켜, 그 중 어느 하나의 게임의 환경에서 테스트를 해 평가하는 「SIMA」이다.
그리고 3번째가, 10타이틀 중 9타이틀의 데이터를 학습시켜, 나머지 1타이틀의 게임의 환경에서 테스트해 평가하는 「Zero-Shot」이다.

그 결과, SIMA는 10 타이틀 모두를 학습시켰을 때는 Specialist보다 높은 퍼포먼스를, 또 Zero-Shot에서도 Specialist에 가까운 퍼포먼스를 각각 발휘했다고 한다.
즉, "한 환경에서 AI 에이전트가 뭔가를 학습하고 그 스킬을 사용하여 다른 환경에서 뭔가를 할 수 있게 된다"는 것을 확인할 수 있었기 때문에 무팔렉은 매우 만족했다고 한다. .

그러나이 프로젝트의 목표는 "언어에 따라 조건부 AI 에이전트를 개발하는 것"입니다. 거기서 자연언어에 의한 어노테이션을 제외해 학습을 실시해, 테스트한 결과, SIMA의 퍼포먼스는 현저하게 저하했다고 한다.
거기서 처음으로 “단일 에이전트를 다수의 대규모 환경에서 트레이닝하면 학습이 전이되어 범화가 이루어진다”는 가설이 증명된 것이다.

각 타이틀에 있어서의 SIMA의 퍼포먼스도 나타났다. Mufarek에 따르면 제목별 일반화의 차이는 작업 실행에 필요한 고유 지식량의 차이에 있다는 것입니다

SIMA에 CFG를 사용한 지시를 더하면 그렇지 않은 경우보다 높은 퍼포먼스를 얻을 수 있다. 그러나 특정 임계값을 초과하면 반대로 성능이 떨어진다고 합니다

무파렉씨는 이상의 결과를 근거로, 「SIMA는 정말 멋진 성공을 거두었다」라고 하면서도, 「완전과는 거리가 멀다」라고 말한다. 이것은 태스크의 완료율이 환경에 크게 좌우되기 때문이며, 인간의 플레이에는 전혀 안 되기 때문이다.
하지만 씨는 그러므로 여기에서 SIMA의 연구 의욕을 몰아낼 수 있다고 말했다.

향후의 전개

마지막으로 무화렉 씨는 SIMA 프로젝트의 향후 전개를 나타냈다. 그것은 차세대의 시뮬레이션 기반에 의한 AI 에이전트 연구가 된다고 한다. 수년에 걸쳐 온 게임에 의한 AI 연구의 기반이며, 아직 해야 할 일은 많이 있다고 한다.

지금까지는 AI 에이전트의 퍼포먼스를 뛰어난 것으로 하기 위한 학습을 연구해 왔지만, 예를 들면 「StarCraft II」의 업데이트에 의해, AlphaStar의 퍼포먼스는 저하하고 있다.
무팔렉은 "게임이 업데이트될 때마다 AI 에이전트에게 재학습하는 것은 현실적이지 않다"며 SIMA의 추가 범용화에 의해 게임에 새로운 피쳐가 들어가도 AI 에이전트가 뛰어난 퍼포먼스를 낼 수 있다면 말했다.

또한 SIMA는 「모닥을 모으는」「그 모닥을 불에 빠뜨린다」라고 하는 단시간에 완료할 수 있는 태스크는 자랑하지만, 「집을 짓다」와 같은 플랜이나 복수의 스텝, 추론이 필요한 태스크는 반드시 그렇지 않다고 한다.
그러나 지금은 Gemini가 SIMA의 강력한 지원이 될 수 있다고 예로 Gemini가 디렉터가되어 "집을 세우다"라는 장시간 걸리는 작업을 단시간의 작업으로 분할하여 SIMA에 전달한다는 것을 들 수있다. 했다.