Was ist der Allzweck-KI-Agent „SIMA' von Google DeepMind für virtuelle 3D-Umgebungen? [CEDEC 2024]-Gaming-Neuigkeiten-php.cn

Am 21. August 2024 fand die Sitzung„SIMA: Entwicklung allgemeiner KI-Agenten mit Videospielen“auf der Spieleentwicklerkonferenz „CEDEC 2024“ statt.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは？［CEDEC 2024］

In dieser Sitzung geben wir einen Überblick über den Allzweck-KI-Agenten „SIMA“(Scalable Instructable Multiworld Agent) von Google DeepMind für virtuelle 3D-Umgebungen, Trainingsmethoden mithilfe von Spielen, Erkenntnisse und Herausforderungen aus der Forschung sowie zukünftige Projekte Mufarek, Leiter der Abteilung Technologiestrategie/KI-F&E-Datenstrategie des Unternehmens, stellte die Ausrichtung des Unternehmens und andere Informationen vor.

Google DeepMind und seine Spiele-DNAMufarek beschrieb die Mission von Google DeepMind zunächst als „den Aufbau einer verantwortungsvollen KI, die der Menschheit zugute kommt“ oder die Entwicklung von AGI (künstliche allgemeine Intelligenz), die zur sicheren Lösung realer Probleme eingesetzt werden kann. Er erklärte, dass sein Ziel darin bestehe, sie nützlich zu machen stellte die Forschung vor, die er seit fast 15 Jahren betreibt.

Er begann mit der Erforschung von Brettspielen und einfachen Spielen für den Atari und begann schließlich mit der Entwicklung von Algorithmen für verstärkendes Lernen, inspiriert von den Neurowissenschaften und seinem Verständnis der Funktionsweise des Gehirns.

Darüber hinaus war es durch die Anwendung der aus diesen Projekten gewonnenen Erkenntnisse und die Fortführung der Forschung durch die Kombination der KI-Modelle des Unternehmens

„AlphaProof“
und „AlphaGeometry 2“möglich, die aus diesen Projekten gewonnenen Erkenntnisse auf die anzuwenden Internationale Mathematikolympiade im Jahr 2024. Es heißt, er habe die Fähigkeitsstufe Silbermedaille erreicht. Es wurde auch erwähnt, dass solche Ergebnisse auch in Googles generativer KI„Gemini“
verwendet werden.

SIMA verwendete Spiele in seiner Forschung, da die meisten seiner Mitglieder, darunter Mufarek selbst und Demis Hassabis, CEO von Google DeepMind, ehemalige Spieleentwickler sind. Er sagte: „Spiele liegen in unserer DNA.“ Er sagt auch, dass die Forschung und die Spieleentwicklung von SIMA mehr gemeinsam haben, als man denkt.

Herr Mufarek erläuterte den Prozess der Forschung und Spieleentwicklung wie folgt. Mit anderen Worten: Wenn Sie „eine Hypothese formulieren und Versuch und Irrtum durchlaufen“, werden Sie schließlich „ein wichtiges Stück mit großem Potenzial entdecken“. Allerdings „irgendwann funktioniert dieses Teil nicht mehr und man landet in einem Zustand, in dem man nicht einmal weiß, warum es passiert ist oder warum es überhaupt funktioniert hat.“ Von da an ist es ein langer, iterativer und anstrengender Prozess, „alle Möglichkeiten zu entdecken, die nicht funktionieren“, aber mit viel Geduld, Ressourcen, Vertrauen in Ihre Ausgangshypothese und Beharrlichkeit werden Sie eine finden Lösung. Von da an beschleunigt sich alles, passt gut ineinander und fügt sich zusammen.

History of AI research using games

Mufarek says that games have long contributed to the advancement of AI research and will continue to be the driving force driving research forward. Specifically, games provide AI research with ``rich, dynamic, and complex environments in which people can interact and learn,'' ``scalable and reproducible experiments,'' and ``controlled and safe testing.''

When it comes to rich, dynamic, and complex environments that you can interact with and learn from, the challenges presented in games, such as solving moving puzzles in virtual space, strategizing against opponents, and adapting to changing situations, can be compared to the diverse range of real-world situations. It was explained that AI models can help develop advanced problem-solving skills and decision-making abilities that can be adapted to various situations.

For scalable and reproducible experiments, researchers can easily create instances of game environments, run many simulations simultaneously, and use the vast amounts of data they can collect to train and evaluate AI models. was mentioned. Additionally, experiments can be consistently replicated, ensuring the reliability and validity of research results.

When it comes to controlled and safe testing, evaluating the performance of an AI model in a variety of virtual situations can help identify potential flaws and limitations and improve algorithms without the risks associated with real-world testing. was shown. This is particularly important for apps such as self-driving cars and medical diagnostics, where errors can have serious consequences.

Cases were also shown in which AI research actually progressed through games between 2010 and 2024, when reinforcement learning and deep learning improved dramatically. In the early 2010s, Google DeepMind took on the challenge of developing algorithms using Atari games and DQN(Deep Q-Network). As a result, an algorithm was created that demonstrated superhuman performance when playing over 50 Atari games.

Mitte bis Ende der 2010er Jahre entwickelte Microsoft ein KI-Trainingsprojekt „Project Malmo“unter Verwendung von „Minecraft“. Darüber hinaus verfügt die KI-Lernplattform „Universe“von OpenAI über eine sehr universelle Benutzeroberfläche, die es ermöglicht, das Spiel zu skalieren und für Forschungszwecke zu verwenden.

Außerdem wird Ende der 2020er Jahre das KI-System „OpenAI Five“für „Dota 2“erscheinen und der von DeepMind entwickelte KI-Agent „AlphaStar“wird zu einem Top-Player in “ „StarCraft II“KI wurde auch in komplexen Spielen eingesetzt, beispielsweise in Gewinnspielen. Während dieser Zeit konzentrierte sich Mufarek auf eine einzige Umgebung mit einem benutzerdefinierten Aktionsbereich und erstellte eine benutzerdefinierte Forschungsplattform, indem er den Quellcode des Spiels änderte und spezielle APIs für den KI-Agenten implementierte. Er erklärte, dass er dies getan habe.

Im Jahr 2017 erweiterte das von Google angekündigte Modell des maschinellen Lernens „Transformer“die Vielseitigkeit der KI, einschließlich der Zusammenfassung von Dialogsätzen, dem Schreiben von Gedichten und der Analyse von Daten mithilfe groß angelegter Sprachmodelle (LLMs). Möglich wurde dies durch Chatbots. Mit weiterer Verallgemeinerung ist es möglich geworden, Bilder, Audio und Video mithilfe von KI zu generieren.

Mufarek weist jedoch auf die Grenzen solcher groß angelegten KI-Modelle hin. Mit anderen Worten: Große KI-Modelle haben keine Körperlichkeit, sie existieren also nur im digitalen Bereich und können nicht im physischen Bereich funktionieren. Um KI im physischen Bereich nutzen zu können, ist es daher notwendig, ihr durch physische Sensoren Körperlichkeit zu verleihen, wie zum Beispiel in den selbstfahrenden Autos „Pepper“ von Softbank und Waymo.

Das nächste Kapitel der KI-Forschung: SIMALaut Mufarek hat DeepMind die Forschung zu SIMA vorangetrieben, um die oben genannten Einschränkungen von KI-Modellen zu überwinden. Das Ziel besteht darin, „einen KI-Agenten zu entwickeln, der durch Sprache konditioniert werden kann“. Mit anderen Worten: Er spielt nicht nur autonom Spiele, sondern ermöglicht es den Menschen auch, ihnen mithilfe natürlicher Sprache zu sagen, was sie tun sollen bestand darin, einen KI-Agenten zu erstellen, der Folgendes ausführen kann.

Die zur Erreichung dieses Ziels aufgestellte Hypothese lautet: „Wenn ein KI-Agent in einer Umgebung etwas lernen und diese Fähigkeit nutzen kann, um in einer anderen Umgebung etwas zu tun, wird die KI verallgemeinert.“ Mit anderen Worten: Anstatt für jeden Spieltitel einen eigenen KI-Agenten vorzubereiten, kann ein einzelner KI-Agent, wenn ein Mensch ein neues Spiel berührt, Operationen wie Charaktere und Kameras aus dem vorherigen Spiel übernehmen. Dies bedeutet, dass es Wirklichkeit wird.

Zu diesem Zweck hat DeepMind mit mehreren Spieleunternehmen zusammengearbeitet, um ein Lernportfolio für KI-Agenten zu erstellen. Konkret wurde der KI-Agent trainiert, indem er das menschliche Gameplay von Spielen wie „No Man’s Sky“, „Valheim“, „Teardown“ und „Goat Simulator“ aufzeichnete. Darüber hinaus scheint es, dass SIMA durch die Bereitstellung textbasierter Anweisungen realisiert werden konnte.

SIMA-Schulung

Außerdem wurde eine Einführung in den Aufbau der SIMA-Lernpipeline gegeben. Laut Mufarek wird SIMA durch die erste Einbindung in die Spiel- und Forschungsumgebung in der Lage sein, das Spiel wie ein Mensch zu spielen, ohne Zugriff auf Quellcode oder spezielle APIs zu haben.

Darüber hinaus erfolgt das Onboarding für Spiele und Forschungsumgebungen in Zusammenarbeit mit dem Spieleentwickler. Hiermit soll geklärt werden, wer für den Umgang mit den im Spiel und SIMA-Projekt verwendeten Daten verantwortlich ist.

Laut Mufarek erforderte das SIMA-Projekt ein vielfältiges und gewaltfreies Lernportfolio. Aus diesem Grund haben wir eine Vielzahl von Spieltiteln ausgewählt, darunter solche, die visuell natürlich, industriell, realistisch, Science-Fiction oder aus der Ego- oder Third-Person-Perspektive sind. Es enthält auch Open-World- und Sandbox-Elemente, um SIMA die Durchführung verschiedener Aktionen durch komplexe Mechanismen zu ermöglichen.

SIMA verwendet eine Allzweckschnittstelle, um einen Allzweck-KI-Agenten zu erstellen. SIMA erhält Ziele und Anweisungen von Menschen zunächst in Form von Texten in natürlicher Sprache und erkennt diese dann in Echtzeit. Dann spielen sie, genau wie Menschen, Spiele mit einem Controller oder Tastatur und Maus.
Mufarek erklärte, dass SIMA durch die Verwendung einer solchen Allzweckschnittstelle ohne Anpassung in jedes Spiel integriert werden kann.

Zusätzlich wurden zwei Methoden zur Erstellung von SIMA-Trainingsdaten verwendet. Eine besteht darin, dass eine einzelne Person das Spiel spielt, das Video ansieht und wichtige Punkte in natürlicher Sprache kommentiert. Bei der zweiten Methode handelt es sich um Teams aus zwei Personen, wobei eine Person Anweisungen in natürlicher Sprache gibt und die andere ihnen folgt, ein Gameplay-Video dreht und Anmerkungen hinzufügt.
Der SIMA-Datensatz ist die Hinzufügung von Tastatur- und Maus-Bediendaten.

Diese Datensätze umfassen Fähigkeiten, die für das SIMA-Gameplay erforderlich sind, wie zum Beispiel „Objekte erstellen“ und „ein Auto fahren“ im Spiel. Durch die Sammlung dieser Fähigkeiten für alle Titel ist die Gesamtzahl riesig, reicht aber für das SIMA-Projekt immer noch nicht aus.
Herr Mufarek sagte, je höher die Qualität der Daten und Anmerkungen sei, desto nützlicher seien sie für die Verbesserung von SIMA, und er werde solche Anstrengungen auch weiterhin unternehmen.

Sobald der Datensatz fertig ist, kann das SIMA-Lerntraining endlich beginnen. Die hier verwendete Technik ist das „konditionierte Verhaltensklonen“, bei dem Lernen durch Nachahmung des menschlichen Spiels erfolgt.
Im Kern handelt es sich um eine Architektur, die vorab trainierte Modelle unterstützt, aber da Gemini zum Zeitpunkt seiner Entwicklung noch nicht existierte, nutzt es Classifier-Free Guidance (CFG), um verbalen Anweisungen Vorrang vor visuellen Eingaben zu geben Kinder lernen, natürliche Sprache zu verstehen und haben ihnen geholfen, natürliche Sprache gut zu verstehen.

In der Phase zur Auswertung der SIMA-Ergebnisse wurde ein Herausforderungssatz erstellt, um die Leistung bei verschiedenen Aufgaben zu messen. Eine Aufgabe besteht aus drei Elementen: Das erste ist der „Anfangszustand“, in dem SIMA seine Aktionen startet, das zweite ist das „Ziel/die Anweisung“, dem SIMA folgen muss, und das dritte ist der „Anfangszustand“, der bestimmt, ob die Aufgabe ausgeführt wird oder nicht Erfolgskriterium erfüllt ist.

SIMA verwendet außerdem „Ground Truth“, das programmgesteuert ermittelt, ob eine Aufgabe erfolgreich abgeschlossen wurde, „Optical Character Recognition (OCR)“, das Feedback zu durchgeführten Aktionen basierend auf Änderungen im Text auf dem Bildschirm liefert, und menschliches IT Außerdem wurde eingeführt, dass die Bewertung aus drei Perspektiven erfolgen wird: „menschliche Bewertung“, bei der das Video überprüft und bestätigt wird, ob die Aufgabe erfolgreich abgeschlossen wurde.

SIMA frühe Forschungsergebnisse und Grenzen dieses Ansatzes

Frühe Forschungsergebnisse des Projekts zeigten, dass SIMA Aufgaben erledigen kann, die häufig in einer Vielzahl von Spielen ausgeführt werden, beispielsweise „vorwärts gehen“ und „ein Menü öffnen“.

Sie konnten auch Aufgaben erfolgreich abschließen, die von Spiel zu Spiel unterschiedliche Bedeutungen haben können, wie zum Beispiel den Start eines Raumschiffs in „No Man’s Sky“ oder das Steuern eines Bootes in „Teardown“.

Ob die Spieler hingegen in der Lage waren, die spielspezifischen Aufgaben zu lösen, wurde anhand von drei separat vorbereiteten Methoden bewertet.
Einer davon ist „Spezialist“, der anhand von Daten aus einem einzelnen Spiel trainiert und in derselben Umgebung bewertet wird. Dies gilt als 100-prozentige Leistung als Basis für die Bewertung.
Das zweite ist „SIMA“, das Daten aus 10 Spielen trainiert und diese dann in der Umgebung eines der Spiele testet und auswertet.
Der dritte ist „Zero-Shot“, der Daten von 9 von 10 Titeln trainiert und sie in der Spielumgebung des verbleibenden 1 Titels testet und auswertet.

Infolgedessen zeigte SIMA beim Erlernen aller 10 Titel eine höhere Leistung als Specialist und selbst mit Zero-Shot eine Leistung, die der von Specialist nahe kam.
Mit anderen Worten, Herr Mufarek war sehr zufrieden, weil er bestätigen konnte, dass „ein KI-Agent in einer Umgebung etwas lernen und diese Fähigkeit nutzen kann, um in einer anderen Umgebung etwas zu tun.“

Das Ziel dieses Projekts besteht jedoch darin, „einen KI-Agenten zu entwickeln, der durch Sprache bedingt ist“. Wenn daher Lernen und Testen ohne Anmerkungen in natürlicher Sprache durchgeführt wurden, verschlechterte sich die Leistung von SIMA erheblich.
Zum ersten Mal wurde die Hypothese bewiesen, dass „das Training eines einzelnen Agenten in vielen großen Umgebungen zu einem Lerntransfer und einer Generalisierung führt“.

SIMAs Leistung in jedem Titel wurde ebenfalls gezeigt. Laut Herrn Mufarek ist der Unterschied in der Verallgemeinerung zwischen den Titeln auf die unterschiedliche Menge an spezifischem Wissen zurückzuführen, das zur Ausführung der Aufgabe erforderlich ist

Wenn Sie Anweisungen mit CFG zu SIMA hinzufügen, können Sie eine höhere Leistung erzielen als ohne. Sobald jedoch ein bestimmter Schwellenwert überschritten wird, scheint die Leistung zu sinken.

Basierend auf den oben genannten Ergebnissen sagt Herr Mufarek, dass „SIMA ein wirklich wunderbarer Erfolg war“, aber dass es „bei weitem nicht perfekt“ sei. Dies liegt daran, dass die Abschlussrate von Aufgaben stark von der Umgebung beeinflusst wird und überhaupt nicht mit dem menschlichen Spielen vergleichbar ist.
Er sagte jedoch, dass dies seine Motivation sei, künftig SIMA-Forschung zu betreiben.

Zukünftige Entwicklungen

Abschließend deutete Herr Mufarek die zukünftige Entwicklung des SIMA-Projekts an. Es wird gesagt, dass dies eine auf Simulationen basierende KI-Agentenforschung der nächsten Generation sein wird. Es ist die Grundlage der KI-Forschung mithilfe von Spielen, die bereits seit vielen Jahren betrieben wird, und es scheint, dass noch viel zu tun bleibt.

Bisher haben wir daran geforscht, die Leistung von KI-Agenten durch Lernen zu verbessern, aber beispielsweise aufgrund von Updates für „StarCraft II“ hat sich die Leistung von AlphaStar verschlechtert.
Mufarek sagte: „Es ist nicht realistisch, den KI-Agenten jedes Mal neu zu trainieren, wenn das Spiel aktualisiert wird“, und glaubt, dass der KI-Agent durch die allgemeinere Gestaltung von SIMA auch im neuen Zustand eine gute Leistung erbringen kann Dem Spiel wurden Funktionen hinzugefügt.

Außerdem eignet sich SIMA gut für Aufgaben, die in kurzer Zeit erledigt werden können, wie zum Beispiel „Brennholz sammeln“ und „Brennholz anzünden“, aber nicht immer gut für Aufgaben, die Planung, mehrere Schritte und Überlegungen erfordern, wie z als „ein Haus bauen“.
Nun scheint es jedoch, dass Gemini eine starke Unterstützung für SIMA sein kann. Beispielsweise kann Gemini eine lange Aufgabe wie „ein Haus bauen“ in kurze Aufgaben aufteilen und diese an SIMA übergeben.

Herr Mufarek bekräftigte, dass das SIMA-Projekt zwar sehr spannend sei und große Vielseitigkeit verspreche, dass es sich jedoch noch nicht zu einem vollständig universell einsetzbaren KI-Agenten entwickelt habe, und fügte hinzu: „Mit etwas mehr Innovation könnte daraus etwas werden, das jede Aufgabe erfüllen kann.“ „Wenn das passiert, werden weitere Entwicklungen möglich.“

Das obige ist der detaillierte Inhalt vonWas ist der Allzweck-KI-Agent „SIMA' von Google DeepMind für virtuelle 3D-Umgebungen? [CEDEC 2024]. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!