Qu'est-ce que l'agent d'IA polyvalent « SIMA » de Google DeepMind pour les environnements virtuels 3D ? [CEDEC 2024]-actualités sur les jeux-php.cn

Le 21 août 2024, la session « SIMA : Développer des agents IA généraux avec des jeux vidéo » s'est tenue lors de la conférence des développeurs de jeux « CEDEC 2024 ».

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは？［CEDEC 2024］

Dans cette session, nous donnerons un aperçu de l'agent d'IA à usage général de Google DeepMind "SIMA" (Scalable Instructable Multiworld Agent) pour les environnements virtuels 3D, les méthodes de formation utilisant des jeux, les apprentissages et les défis tirés de la recherche et les projets futurs d'Alexandre. Mufarek, responsable du département Stratégie technologique/Stratégie de données R&D IA de l'entreprise, a présenté l'orientation de l'entreprise et d'autres informations.

Google DeepMind et son ADN de jeu Mufarek a initialement décrit la mission de Google DeepMind comme « construire une IA responsable qui profite à l'humanité » ou développer une AGI (intelligence artificielle générale) qui peut être utilisée pour résoudre en toute sécurité des problèmes du monde réel. a présenté les recherches qu'il mène depuis près de 15 ans.

Il a commencé par faire des recherches sur des jeux de société et des jeux simples pour Atari, et a finalement commencé à développer des algorithmes d'apprentissage par renforcement, inspirés par les neurosciences et sa compréhension du fonctionnement du cerveau.

De plus, grâce à l'application des connaissances acquises lors de ces projets et à la poursuite des recherches, en combinant les modèles d'IA de l'entreprise

"AlphaProof"
et "AlphaGeometry 2" , il a été possible d'appliquer les connaissances acquises lors de ces projets au Olympiade internationale de mathématiques en 2024. On dit qu'il a atteint le niveau d'aptitude médaille d'argent. Il a également été mentionné que ces résultats sont également utilisés dans l'IA générative de Google "Gemini"
.

SIMA a utilisé des jeux dans ses recherches car la plupart de ses membres, dont Mufarek lui-même et Demis Hassabis, PDG de Google DeepMind, sont d'anciens développeurs de jeux. Il a dit : « Les jeux sont dans notre ADN. » Il dit également que la recherche et le développement de jeux au SIMA ont plus en commun qu'on ne le pense.

M. Mufarek a expliqué le processus de recherche et de développement de jeux comme suit. En d’autres termes, si vous « formulez une hypothèse et faites des essais et des erreurs », vous finirez par « découvrir une pièce importante avec un grand potentiel ». Cependant, «à un moment donné, cet élément cesse de fonctionner et vous vous retrouvez dans un état où vous ne savez même pas pourquoi cela s'est produit ou pourquoi cela fonctionnait en premier lieu.» À partir de là, il s’agit d’un processus long, itératif et épuisant consistant à « découvrir toutes les méthodes qui ne fonctionneront pas », mais avec beaucoup de patience, de ressources, de foi dans votre hypothèse initiale et de persévérance, vous trouverez un solution. À partir de là, tout s’accélère, s’enchaîne bien et s’enchaîne.

Histoire de la recherche sur l'IA utilisant les jeux

Mufarek affirme que les jeux contribuent depuis longtemps à l’avancement de la recherche sur l’IA et continueront d’être le moteur de la recherche. Plus précisément, les jeux offrent à la recherche en IA des « environnements riches, dynamiques et complexes dans lesquels les gens peuvent interagir et apprendre », des « expériences évolutives et reproductibles » et des « tests contrôlés et sûrs ».

Lorsqu'il s'agit d'environnements riches, dynamiques et complexes avec lesquels vous pouvez interagir et apprendre, les défis présentés dans les jeux, tels que résoudre des énigmes en mouvement dans l'espace virtuel, élaborer des stratégies contre des adversaires et s'adapter à des situations changeantes, peuvent être comparés au un large éventail de situations réelles. Il a été expliqué que les modèles d’IA peuvent aider à développer des compétences avancées en matière de résolution de problèmes et de prise de décision qui peuvent être adaptées à diverses situations.

Pour des expériences évolutives et reproductibles, les chercheurs peuvent facilement créer des instances d’environnements de jeu, exécuter de nombreuses simulations simultanément et utiliser les grandes quantités de données qu’ils peuvent collecter pour former et évaluer des modèles d’IA. De plus, les expériences peuvent être reproduites de manière cohérente, garantissant ainsi la fiabilité et la validité des résultats de recherche.

Lorsqu'il s'agit de tests contrôlés et sûrs, l'évaluation des performances d'un modèle d'IA dans diverses situations virtuelles peut aider à identifier les failles et les limites potentielles et à améliorer les algorithmes sans les risques associés aux tests dans le monde réel. Ceci est particulièrement important pour les applications telles que les voitures autonomes et les diagnostics médicaux, où les erreurs peuvent avoir de graves conséquences.

Des cas ont également été présentés dans lesquels la recherche sur l’IA a réellement progressé grâce aux jeux entre 2010 et 2024, lorsque l’apprentissage par renforcement et l’apprentissage en profondeur se sont considérablement améliorés. Au début des années 2010, Google DeepMind a relevé le défi de développer des algorithmes utilisant les jeux Atari et DQN (Deep Q-Network). En conséquence, un algorithme a été créé qui a démontré des performances surhumaines lors de la lecture de plus de 50 jeux Atari.

Entre le milieu et la fin des années 2010, Microsoft a développé un projet de formation à l'IA "Project Malmo" utilisant "Minecraft" . De plus, la plateforme d'apprentissage de l'IA d'OpenAI "Universe" dispose d'une interface utilisateur très polyvalente, permettant de faire évoluer le jeu et de l'utiliser à des fins de recherche.

De plus, à la fin des années 2020, le système d'IA « OpenAI Five » pour « Dota 2 » fera son apparition, et l'agent d'IA « AlphaStar » développé par DeepMind deviendra un acteur de premier plan dans » StarCraft II » L'IA a commencé à être utilisée même dans des jeux complexes, tels que les jeux gagnants. Au cours de cette période, Mufarek s'est concentré sur un environnement unique avec un espace d'action personnalisé et a créé une plate-forme de recherche personnalisée en modifiant le code source du jeu et en implémentant des API spéciales pour l'agent IA. Il a expliqué qu'il l'avait fait.

En 2017, le modèle d'apprentissage automatique "Transformer" annoncé par Google a élargi la polyvalence de l'IA, notamment en résumant des phrases de dialogue, en écrivant de la poésie et en analysant des données à l'aide de modèles linguistiques à grande échelle (LLM). Cela a été rendu possible grâce aux chatbots. Avec une généralisation plus poussée, il est devenu possible de générer des images, du son et de la vidéo à l’aide de l’IA.

Cependant, Mufarek souligne les limites de ces modèles d’IA à grande échelle. En d’autres termes, les modèles d’IA à grande échelle n’ont aucune dimension physique, ils n’existent donc que dans le domaine numérique et ne peuvent pas fonctionner dans le domaine physique. Par conséquent, afin d'utiliser l'IA dans le domaine physique, il est nécessaire de lui donner une dimension physique grâce à des capteurs physiques, comme dans Pepper de Softbank et les voitures autonomes de Waymo.

Le prochain chapitre de la recherche en IA : SIMA

Selon Mufarek, DeepMind a fait progresser la recherche sur SIMA afin de surmonter les limites mentionnées ci-dessus des modèles d'IA. L'objectif est de « développer un agent d'IA qui peut être conditionné par le langage ». En d'autres termes, il permet non seulement de jouer à des jeux de manière autonome, mais permet également aux humains d'utiliser le langage naturel pour leur dire ce qu'ils veulent qu'ils fassent. était de créer un agent IA capable d'effectuer les tâches suivantes.

L'hypothèse établie pour atteindre cet objectif est la suivante : « Si un agent d'IA peut apprendre quelque chose dans un environnement et utiliser cette compétence pour faire quelque chose dans un autre environnement, alors l'IA se généralisera. » En d'autres termes, au lieu de préparer un agent IA dédié pour chaque titre de jeu, lorsqu'un humain touche un nouveau jeu, un seul agent IA peut reprendre les opérations telles que les personnages et les caméras du jeu précédent. Cela signifie en faire une réalité.

À cette fin, DeepMind s'est associé à plusieurs sociétés de jeux pour créer un portefeuille de formation pour les agents IA. Plus précisément, l'agent IA a été formé en enregistrant le gameplay humain de jeux tels que « No Man's Sky », « Valheim », « Teardown » et « Goat Simulator ». De plus, il semble que SIMA ait pu être réalisé en donnant des instructions textuelles.

Formation SIMA

Une introduction a également été donnée sur la manière dont le pipeline d'apprentissage du SIMA a été construit. Selon Mufarek, en intégrant d'abord l'environnement de jeu et de recherche, SIMA pourra jouer au jeu comme un humain, sans avoir accès au code source ou aux API spéciales.

De plus, l'intégration des jeux et des environnements de recherche se fera en coopération avec le développeur du jeu. Il s'agit de clarifier qui est responsable de la manière dont les données utilisées dans le jeu et le projet SIMA sont traitées.

Selon Mufarek, le projet SIMA nécessitait un portefeuille d'apprentissage diversifié et non violent. Pour cette raison, nous avons sélectionné une variété de titres de jeux, y compris ceux qui sont visuellement naturels, industriels, réalistes, de science-fiction ou du point de vue de la première ou de la troisième personne. Il intègre également des éléments de monde ouvert et de bac à sable pour permettre à SIMA d'entreprendre diverses actions via des mécanismes complexes.

　SIMA utilise une interface à usage général, et on dit que c'était dans le but de réaliser un agent d'IA à usage général. SIMA reçoit d’abord les objectifs et les instructions des humains sous forme de texte rédigé en langage naturel, puis les reconnaît en temps réel. Ensuite, tout comme les humains, ils jouent à des jeux en utilisant une manette ou un clavier et une souris.
M. Mufarek a expliqué qu'en utilisant une interface aussi polyvalente, SIMA peut être intégré à n'importe quel jeu sans personnalisation.

De plus, deux méthodes ont été utilisées pour créer les données de formation SIMA. La première consiste pour une seule personne à jouer au jeu, à regarder la vidéo et à annoter les points importants en langage naturel. La deuxième méthode implique des équipes de deux personnes, une personne donnant des instructions en langage naturel et l'autre les suivant, filmant une vidéo de gameplay et ajoutant des annotations.
L'ensemble de données SIMA comprend des données de fonctionnement telles que le clavier et la souris.

Set data ini termasuk kemahiran yang diperlukan untuk permainan SIMA, seperti ``membuat objek'' dan ``memandu kereta'' dalam permainan. Hasil daripada pengumpulan kemahiran ini untuk semua tajuk, jumlahnya adalah besar, tetapi ia masih tidak mencukupi untuk projek SIMA.
Encik Mufarek berkata bahawa lebih tinggi kualiti data dan anotasi, lebih berguna ia untuk menambah baik SIMA, dan beliau akan terus melakukan usaha sedemikian pada masa hadapan.

Setelah set data sedia, latihan pembelajaran SIMA akhirnya boleh dimulakan. Teknik yang digunakan di sini ialah ``pengklonan tingkah laku bersyarat,'' yang melibatkan pembelajaran dengan meniru permainan manusia.
Pada terasnya ialah seni bina yang menyokong model pra-latihan, tetapi memandangkan Gemini belum wujud apabila ia dibangunkan, ia menggunakan Panduan Tanpa Pengelas (CFG) untuk mengutamakan arahan lisan berbanding input visual. Telah didedahkan bahawa syarikat itu memberikan sokongan untuk membantu kanak-kanak belajar cara bercakap bahasa semula jadi dan memahami bahasa semula jadi dengan baik.

Dalam fasa untuk menilai keputusan SIMA, satu set cabaran telah dicipta untuk mengukur prestasi pada pelbagai tugas. Tugasan mempunyai tiga elemen: yang pertama ialah "keadaan awal" di mana SIMA memulakan tindakannya, yang kedua ialah "matlamat/arahan" yang mesti diikuti oleh SIMA, dan yang ketiga ialah "keadaan awal" yang menentukan sama ada tugas itu atau tidak. telah mencapai kriteria kejayaan."

SIMA juga menggunakan ``Ground Truth,'' yang secara pemrograman menentukan sama ada tugas telah berjaya diselesaikan, ``Optical Character Recognition (OCR),'' yang memberikan maklum balas tentang tindakan yang diambil berdasarkan perubahan dalam teks pada skrin, dan manusia Ia juga diperkenalkan bahawa penilaian akan dilakukan dari tiga perspektif: ``penilaian manusia,'' yang melibatkan pemeriksaan video dan mengesahkan sama ada tugasan itu berjaya diselesaikan.

Keputusan penyelidikan awal SIMA dan batasan pendekatan ini

Hasil penyelidikan awal projek itu mendedahkan bahawa SIMA boleh menyelesaikan tugas yang biasa dilakukan dalam pelbagai permainan, seperti "melangkah ke hadapan" dan "membuka menu."

Saya juga berjaya menyelesaikan tugasan yang mungkin mempunyai makna berbeza dari satu permainan ke satu permainan, seperti melepaskan kapal angkasa dalam ``No Man's Sky'' atau memandu bot dalam ``Teardown.''

Sebaliknya, sama ada pemain dapat menyelesaikan tugasan khusus untuk setiap permainan dinilai atau tidak menggunakan tiga kaedah yang disediakan secara berasingan.
Salah satunya ialah ``Pakar,'' yang dilatih mengenai data daripada satu permainan dan dinilai dalam persekitaran yang sama, dan ini dianggap prestasi 100% sebagai garis dasar untuk penilaian.
Yang kedua ialah ``SIMA,'' yang melatih data daripada 10 permainan dan kemudian menguji dan menilainya dalam persekitaran salah satu permainan.
Yang ketiga ialah ``Zero-Shot,'' yang melatih data daripada 9 daripada 10 tajuk dan menguji serta menilainya dalam persekitaran permainan bagi baki 1 tajuk.

Hasilnya, SIMA menunjukkan prestasi yang lebih tinggi daripada Specialist apabila mempelajari kesemua 10 tajuk, dan prestasi hampir dengan Specialist walaupun dengan Zero-Shot.
Dalam erti kata lain, Encik Mufarek sangat berpuas hati kerana beliau dapat mengesahkan bahawa ``ejen AI boleh mempelajari sesuatu dalam satu persekitaran dan menggunakan kemahiran itu untuk melakukan sesuatu dalam persekitaran yang lain.'' .

Walau bagaimanapun, matlamat projek ini adalah untuk "membangunkan ejen AI yang dikondisikan oleh bahasa." Oleh itu, apabila pembelajaran dilakukan tanpa anotasi bahasa semula jadi dan diuji, prestasi SIMA merosot dengan ketara.
Buat pertama kalinya, hipotesis bahawa ``melatih ejen tunggal dalam banyak persekitaran berskala besar menghasilkan pemindahan pembelajaran dan generalisasi'' telah terbukti.

Persembahan SIMA dalam setiap tajuk turut ditunjukkan. Menurut En. Mufarek, perbezaan dalam generalisasi antara tajuk adalah disebabkan oleh perbezaan dalam jumlah pengetahuan khusus yang diperlukan untuk melaksanakan tugasan

Jika anda menambah arahan menggunakan CFG ke SIMA, anda boleh memperoleh prestasi yang lebih tinggi berbanding tanpanya. Walau bagaimanapun, apabila ambang tertentu melebihi, prestasi nampaknya menurun.

Berdasarkan keputusan di atas, Encik Mufarek mengatakan bahawa ``SIMA telah menjadi kejayaan yang benar-benar mengagumkan,'' tetapi ia adalah ``jauh dari sempurna.'' Ini kerana kadar penyiapan tugas banyak dipengaruhi oleh alam sekitar, dan sama sekali tidak setanding dengan permainan manusia.
Bagaimanapun, katanya, inilah yang mendorongnya untuk melakukan penyelidikan SIMA pada masa hadapan.

Perkembangan masa depan

Akhirnya, Encik Mufarek menunjukkan perkembangan masa depan projek SIMA. Dikatakan bahawa ini akan menjadi penyelidikan ejen AI berasaskan simulasi generasi akan datang. Ia adalah asas penyelidikan AI menggunakan permainan, yang telah dijalankan selama bertahun-tahun, dan nampaknya masih banyak kerja yang perlu dilakukan.

Sehingga kini, kami telah meneliti pembelajaran untuk meningkatkan prestasi ejen AI, tetapi sebagai contoh, disebabkan kemas kini kepada "StarCraft II", prestasi AlphaStar telah merosot.
Mufarek berkata, ``Adalah tidak realistik untuk meminta ejen AI melatih semula setiap kali permainan dikemas kini,'' dan percaya bahawa dengan menjadikan SIMA lebih bertujuan umum, ejen AI akan dapat beraksi dengan baik walaupun ketika baru. ciri ditambah kepada permainan.

Selain itu, SIMA mahir dalam tugasan yang boleh diselesaikan dalam masa yang singkat, seperti "mengumpul kayu api" dan "membakar kayu api," tetapi ia tidak selalunya pandai dalam tugas yang memerlukan perancangan, pelbagai langkah dan penaakulan, seperti sebagai "membina rumah."
Namun, kini nampaknya Gemini boleh menjadi sokongan yang kuat untuk SIMA Contohnya, Gemini boleh menjadi pengarah dan membahagikan tugas yang panjang seperti ``membina rumah'' kepada tugas-tugas yang singkat dan menyerahkannya kepada SIMA.

Encik Mufarek mengulangi bahawa walaupun projek SIMA sangat menarik dan menjanjikan serba boleh, ia masih belum menjadi ejen AI tujuan am sepenuhnya, sambil menambah, ``Dengan sedikit lagi inovasi, ia boleh menjadi sesuatu yang boleh melaksanakan sebarang tugas. '' Jika itu berlaku, perkembangan selanjutnya akan menjadi mungkin.''

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!