Le premier au monde ! En examinant près de 400 documents, le laboratoire Pengcheng et le CUHK analysent en profondeur l'intelligence incarnée-IA-php.cn

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'intelligence incorporée est le seul moyen d'atteindre l'intelligence artificielle générale. Elle repose essentiellement sur l'interaction d'agents intelligents avec l'espace numérique et le monde physique. Effectuez des tâches complexes. Ces dernières années, les grands modèles multimodaux et la technologie robotique ont fait de grands progrès, et l’intelligence incorporée est devenue un nouveau centre de concurrence technologique et industrielle mondiale. Cependant, il manque actuellement une étude capable d’analyser de manière exhaustive l’état actuel du développement de l’intelligence incorporée. Par conséquent, l’Institut d’intelligence multi-agents et d’intelligence incorporée du Laboratoire de Pengcheng, en collaboration avec des chercheurs du Laboratoire HCP de l’Université Sun Yat-sen, a mené une analyse complète des derniers progrès en matière d’intelligence incorporée et a lancé une ère mondiale de grands modèles multimodaux. La première revue de l’intelligence incarnée.

Cette revue a examiné près de 400 documents et mené une analyse complète de la recherche sur l'intelligence incarnée sous de multiples dimensions. Cette revue présente d'abord quelques
robots incarnés et plates-formes de simulation incarnées

représentatifs, et fournit une analyse approfondie de leurs objectifs de recherche et de leurs limites. Ensuite, quatre contenus de recherche principaux sont analysés en profondeur : 1)

Perception incarnée , 2)Interaction incarnée , 3)Intelligence incarnée et 4)Transfert du virtuel à la réalité , ces contenus de recherche couvrent l'état de l'art. méthodes artistiques, paradigmes de base et ensembles de données complets. En outre, cette revue explore les défis auxquels sont confrontés les agents incarnés dans les espaces numériques et les mondes physiques, en soulignant leur importance pour l'interaction active dans des environnements numériques et physiques dynamiques. Enfin, la revue résume les défis et les limites de l’intelligence incarnée et discute de ses orientations futures potentielles. Cette revue espère fournir une référence de base pour la recherche sur l’intelligence incorporée et promouvoir l’innovation technologique connexe. En outre, cette revue a également publié une liste d'articles sur l'intelligence incorporée sur Github. Les articles et référentiels de codes associés seront continuellement mis à jour, alors soyez attentif.

Adresse du papier T : https://arxiv.org/pdf/2407.06886

1. Le passé et le présent de l'intelligence incarnée

Le concept d'intelligence incarnée a été proposé pour la première fois par Alan Turing dans le test de Turing incarné. créé en 1950 pour déterminer si un agent intelligent peut montrer plus qu'une simple intelligence qui résout des problèmes abstraits dans un environnement virtuel (espace numérique) (les agents intelligents sont la base de l'intelligence incarnée, existent dans l'espace numérique et le monde physique et sont incarnés dans sous la forme de diverses entités, comprenant non seulement des robots mais aussi d'autres appareils ), peuvent également faire face à la complexité et à l'imprévisibilité du monde physique. Par conséquent, le développement de l’intelligence incorporée est considéré comme un moyen fondamental de parvenir à une intelligence artificielle générale. Il est particulièrement important d’approfondir la complexité de l’intelligence incarnée, d’évaluer son état de développement actuel et d’envisager sa trajectoire future. Aujourd'hui, l'intelligence incarnée couvre plusieurs technologies clés telles que la vision par ordinateur, le traitement du langage naturel et la robotique. Les plus représentatives sont la

perception incarnée, l'interaction incarnée, l'intelligence incarnée et la migration du virtuel vers la réalité . Dans les tâches incarnées, les agents incarnés doivent pleinement comprendre les intentions humaines dans les instructions linguistiques, explorer de manière proactive l'environnement environnant, percevoir de manière globale les éléments multimodaux des environnements virtuels et physiques et effectuer les opérations appropriées pour accomplir des tâches complexes. Les progrès rapides des modèles multimodaux démontrent une plus grande diversité, flexibilité et capacités de généralisation que les méthodes traditionnelles d'apprentissage par renforcement profond dans des environnements complexes. Les représentations visuelles pré-entraînées par des encodeurs visuels de pointe fournissent des estimations précises des catégories d'objets, des poses et des géométries, permettant aux modèles incarnés de percevoir de manière globale des environnements complexes et dynamiques. De puissants modèles de langage de grande taille permettent aux robots de mieux comprendre les instructions du langage humain et constituent un moyen réalisable d'aligner les représentations visuelles et linguistiques des robots incarnés. Les modèles mondiaux démontrent des capacités de simulation significatives et une bonne compréhension des lois physiques, permettant aux modèles incorporés de comprendre pleinement la physique et les environnements réels. Ces avancées permettent à l’intelligence incarnée de percevoir de manière globale des environnements complexes, d’interagir naturellement avec les humains et d’effectuer des tâches de manière fiable. La figure ci-dessous montre l'architecture typique d'un agent incarné.

Robots incarnés

—— outil Solution matérielle pour les robots incarnés l'intelligence dans le monde physique ; (2)
Plateforme de simulation incarnée

- un espace numérique pour entraîner l'intelligence incarnée de manière efficace et sûre (3)

Perception incarnée - Percevoir et synthétiser activement l'espace 3D Plusieurs modalités sensorielles ;- Interagir avec l'environnement de manière efficace et raisonnable et même modifier l'environnement pour accomplir des tâches spécifiées ; (5)

Intelligence incorporée

- Utiliser de grands modèles multimodaux pour comprendre les instructions d'abstraction et les diviser en une série de sous-tâches, puis les exécuter étape par étape. par étape ; (6) Le premier au monde ! En examinant près de 400 documents, le laboratoire Pengcheng et le CUHK analysent en profondeur lintelligence incarnée Transfert du virtuel à la réalité

- Transférer et généraliser les compétences acquises dans l'espace numérique au monde physique. La figure ci-dessous montre le cadre système de l'intelligence incarnée, de l'espace numérique au monde physique. Cette revue vise à fournir une connaissance de base complète, les tendances de la recherche et des informations techniques sur l'intelligence incorporée.

^{L'ensemble architecture de cette revue}

2. Robot incarné

forme physique, y compris les robots, les appareils électroménagers intelligents, les lunettes intelligentes et les véhicules autonomes, entre autres. Parmi eux, les robots, en tant qu’une des formes incarnées les plus importantes, ont attiré beaucoup d’attention. Selon différents scénarios d'application, les robots sont conçus sous diverses formes pour exploiter pleinement leurs fonctionnalités matérielles afin d'accomplir des tâches spécifiques. Comme le montre la figure ci-dessous, les robots incorporés peuvent généralement être divisés en : (1) robots à base fixe, tels que les bras robotiques, qui sont souvent utilisés dans la synthèse d'automatisation de laboratoire, l'éducation, l'industrie et d'autres domaines, (2) robots à roues, qui ; sont très efficaces Célèbres pour leur mobilité, ils sont largement utilisés dans les inspections de logistique, d'entreposage et de sécurité (3) Les robots sur chenilles, dotés de fortes capacités et de mobilité tout-terrain, ont montré leur potentiel dans l'agriculture, la construction et la réponse aux catastrophes (4) ; Quadrupèdes Le robot, connu pour sa stabilité et son adaptabilité, est idéal pour la détection en terrain complexe, les missions de sauvetage et les applications militaires. (5) Les robots humanoïdes, dont la clé est leurs mains adroites, sont largement utilisés dans le secteur des services, les soins de santé et les environnements collaboratifs. (6) Les robots bioniques effectuent des tâches dans des environnements complexes et dynamiques en simulant les mouvements et les fonctions efficaces des organismes naturels.

^{Différentes formes de robots incarnés}

3. Plateforme de simulation d'intelligence incorporée

Les plateformes de simulation d'intelligence incorporée sont cruciales pour l'intelligence incorporée car elles fournissent une solution rentable. méthode expérimentale, peut garantir la sécurité en simulant des scénarios potentiellement dangereux, a l'évolutivité nécessaire pour tester dans une variété d'environnements, a des capacités de prototypage rapide, peut offrir une commodité à une communauté de recherche plus large et fournit un environnement contrôlé pour une recherche précise, générant des données pour la formation et évaluation, et fournir une référence standardisée pour la comparaison des algorithmes. Pour que l’agent puisse interagir avec l’environnement, un environnement simulé réaliste doit être construit. Cela nécessite de prendre en compte les caractéristiques physiques de l'environnement, les propriétés des objets et leurs interactions. Comme le montre la figure ci-dessous, cette revue analysera deux plateformes de simulation : une plateforme générale basée sur une simulation sous-jacente et une plateforme de simulation basée sur des scénarios réels.

^{Plateforme de simulation basée sur des scènes réelles}

4. Perception incarnée

L'« étoile du Nord » de la perception visuelle future » est un raisonnement visuel centré sur l'incarnation et intelligence sociale. Comme le montre la figure ci-dessous, au lieu de simplement reconnaître les objets dans les images, les agents dotés d'une perception incarnée doivent se déplacer dans le monde physique et interagir avec l'environnement, ce qui nécessite une compréhension plus approfondie de l'espace tridimensionnel et des environnements dynamiques. La perception incarnée nécessite des capacités de perception visuelle et de raisonnement, la compréhension des relations tridimensionnelles dans une scène, ainsi que la prévision et l'exécution de tâches complexes basées sur des informations visuelles. Cette revue introduit la perception visuelle active, la localisation visuelle 3D, la navigation linguistique visuelle, la perception non visuelle (capteurs tactiles), etc.

^{Cadre de perception visuelle active}

5. Interaction incarnée

Scènes d'interaction avec l'humain et l'environnement. Les tâches d'interaction incarnée typiques incluent la réponse aux questions incarnées et la saisie incarnée. Comme le montre la figure ci-dessous, dans la tâche de questions et réponses incorporée, l'agent doit explorer l'environnement du point de vue de la première personne pour collecter les informations nécessaires pour répondre à la question. Un agent doté de capacités autonomes d’exploration et de prise de décision doit non seulement réfléchir aux actions à entreprendre pour explorer l’environnement, mais également décider quand arrêter l’exploration pour répondre aux questions, comme le montre la figure ci-dessous.架 En plus du cadre de questions et réponses 问 En plus de l'interaction avec les humains, l'interaction implique également d'effectuer des opérations basées sur des instructions humaines, telles que saisir et placer des objets, complétant ainsi les corps et les êtres humains intelligents et les interactions entre les objets. Comme indiqué, la saisie incarnée nécessite une compréhension sémantique complète, une connaissance de la scène, une prise de décision et une planification de contrôle robuste. La méthode de saisie incorporée combine la saisie cinématique robotique traditionnelle avec des modèles à grande échelle (tels que de grands modèles de langage et des modèles de base du langage visuel), permettant aux agents d'effectuer des tâches de saisie sous perception multisensorielle, notamment la perception visuelle active, la compréhension du langage et le raisonnement.

^{Cadre d'exploration interactif guidé par le langage}

6. Agent incarné

Un agent est défini comme étant capable de ressentir l'environnement et de prendre des mesures pour atteindre un objectif spécifique. entité autonome. Les progrès récents dans les grands modèles multimodaux ont encore élargi l'application des agents dans des scénarios du monde réel. Lorsque ces agents multimodaux basés sur de grands modèles sont incarnés dans des entités physiques, ils sont capables de transférer efficacement leurs capacités de l'espace virtuel vers le monde physique, devenant ainsi des agents incarnés. Afin que les agents incarnés puissent opérer dans un monde réel complexe et riche en informations, ils ont été développés avec de puissantes capacités de perception, d’interaction et de planification multimodales. Comme le montre la figure ci-dessous, afin d'accomplir des tâches, les agents incarnés impliquent généralement les processus suivants :

(1) Décomposer les tâches abstraites et complexes en sous-tâches spécifiques, c'est-à-dire une planification des tâches incarnées de haut niveau. (2) Mettez progressivement en œuvre ces sous-tâches en utilisant efficacement les modèles de perception incarnée et d'interaction incarnée, ou en utilisant les fonctions stratégiques du modèle de base, appelé planification d'action incarnée de bas niveau.

Il convient de noter que la planification de mission implique de réfléchir avant d'agir et est donc souvent envisagée dans l'espace numérique. En revanche, la planification d'action doit prendre en compte les interactions efficaces avec l'environnement et renvoyer ces informations au planificateur de mission pour ajuster la planification de la mission. Il est donc crucial pour les agents incarnés d’aligner et de généraliser leurs capacités de l’espace numérique au monde physique.模 Basé sur un modèle multi-mode et grand, le cadre corporel du corps

7 (adaptation Sim-to-Real) fait référence au processus de transfert de capacités ou de comportements appris dans un environnement simulé (. espace numérique) au monde réel (monde physique). Le processus comprend la validation et l'amélioration de l'efficacité des algorithmes, des modèles et des stratégies de contrôle développés en simulation pour garantir qu'ils fonctionnent de manière stable et fiable dans l'environnement physique. Afin de parvenir à une adaptation de la simulation à la réalité, les modèles du monde incarné, les méthodes de collecte de données et de formation, ainsi que les algorithmes de contrôle incorporés sont trois éléments clés. La figure ci-dessous montre cinq paradigmes différents de la simulation au réel.

# Cinq solutions de migration du virtuel vers la réalité

8.

a relevé quelques défis et a présenté des orientations futures passionnantes :

(1)
Ensemble de données robotiques de haute qualité
. Obtenir suffisamment de données robotiques réelles reste un défi de taille. La collecte de ces données prend du temps et nécessite beaucoup de ressources. S’appuyer uniquement sur des données simulées exacerbera le problème de l’écart entre la simulation et la réalité. La création de divers ensembles de données robotiques du monde réel nécessite une collaboration étroite et étendue entre les institutions. De plus, le développement de simulateurs plus réalistes et plus efficaces est crucial pour améliorer la qualité des données de simulation. Afin de créer un modèle incorporé universel capable de réaliser des applications multi-scénarios et multi-tâches dans le domaine de la robotique, il est nécessaire de créer des ensembles de données à grande échelle et d'utiliser des données d'environnement simulé de haute qualité pour assister les données du monde réel.

(2)Utilisation efficace des données de démonstration humaine
. L’utilisation efficace des données de démonstration humaine implique de tirer parti des actions et des comportements humains démontrés pour former et améliorer les systèmes robotiques. Ce processus implique la collecte, le traitement et l’apprentissage à partir d’ensembles de données à grande échelle et de haute qualité, les humains effectuant les tâches que le robot doit apprendre. Par conséquent, il est important d’utiliser efficacement de grandes quantités de données de démonstration humaine non structurées, multi-étiquettes et multimodales, combinées à des données d’étiquettes d’action pour former des modèles incarnés capables d’apprendre une variété de tâches dans un temps relativement court. En exploitant efficacement les données de démonstration humaine, les systèmes robotiques peuvent atteindre des niveaux plus élevés de performances et d’adaptabilité, les rendant ainsi mieux à même d’effectuer des tâches complexes dans des environnements dynamiques.

(3)Cognition de l'environnement complexe
. La cognition des environnements complexes fait référence à la capacité des agents incarnés à percevoir, comprendre et naviguer dans des environnements complexes du monde réel dans des environnements physiques ou virtuels. Pour les environnements ouverts non structurés, les travaux actuels s'appuient généralement sur le mécanisme de décomposition des tâches d'un LLM pré-entraîné, exploitant des connaissances approfondies de bon sens pour une planification simple des tâches, mais manquent de compréhension spécifique de la scène. Il est essentiel d’améliorer le transfert et la généralisation des connaissances dans des environnements complexes. Un système robotique véritablement polyvalent devrait être capable de comprendre et d’exécuter des instructions en langage naturel dans une variété de scénarios différents et inédits. Cela nécessite le développement d’architectures d’agents incorporés adaptables et évolutives.

(4)Exécution de mission à longue portée
. L'exécution d'une seule commande implique généralement que le robot exécute une tâche à longue portée, telle qu'une commande telle que « nettoyer la cuisine », qui implique de réorganiser les objets, de balayer le sol, d'essuyer la table, etc. La réussite de ces tâches nécessite que le robot soit capable de planifier et d’exécuter une série d’actions de bas niveau sur une période de temps prolongée. Bien que les planificateurs de tâches de haut niveau actuels aient connu un succès initial, ils échouent souvent dans divers scénarios en raison d'un manque d'adaptation aux tâches incarnées. Relever ce défi nécessite le développement de planificateurs efficaces dotés de fortes capacités de perception et de connaissances approfondies de bon sens.

(5)Découverte d'une relation causale
. Les agents incarnés existants basés sur les données prennent des décisions basées sur des corrélations au sein des données. Cependant, cette méthode de modélisation ne peut pas permettre au modèle de véritablement comprendre la relation causale entre les connaissances, le comportement et l’environnement, ce qui entraîne des stratégies biaisées. Cela les rend difficiles à exploiter de manière interprétable, robuste et fiable dans des environnements réels. Par conséquent, l’intelligence incarnée doit être guidée par la connaissance du monde et disposer de capacités de raisonnement causal autonomes.

(6)Continuer à apprendre
. Dans les applications robotiques, l’apprentissage continu est crucial pour déployer des stratégies d’apprentissage robotique dans divers environnements, mais ce domaine reste sous-exploré. Bien que certaines recherches récentes aient exploré des sous-thèmes de l'apprentissage continu, tels que l'apprentissage incrémentiel, l'adaptation rapide des mouvements et l'apprentissage par interaction homme-machine, ces solutions sont généralement conçues pour une tâche ou une plate-forme unique et n'ont pas encore pris en compte le modèle sous-jacent. Les questions de recherche ouvertes et les approches possibles incluent : 1) mélanger différentes proportions de distributions de données précédentes lors de l'ajustement fin des données les plus récentes pour atténuer les oublis catastrophiques, 2) développer des prototypes efficaces à partir de distributions ou de cours précédents pour de nouvelles tâches d'apprentissage par inférence, 3) améliorer la la stabilité de la formation et l'efficacité des échantillons d'algorithmes d'apprentissage en ligne, 4) identifier des méthodes de principe pour intégrer de manière transparente des modèles de grande capacité dans des cadres de contrôle, éventuellement par le biais d'un apprentissage hiérarchique ou d'un contrôle lent-rapide, pour parvenir à un raisonnement en temps réel.

(7)Référence d'évaluation unifiée
. Bien qu’il existe de nombreux critères d’évaluation des stratégies de contrôle de bas niveau, leurs compétences d’évaluation diffèrent souvent de manière significative. De plus, les objets et scènes inclus dans ces benchmarks sont souvent limités au simulateur. Pour évaluer pleinement les modèles incorporés, des références couvrant plusieurs compétences à l’aide de simulateurs réalistes sont nécessaires. En termes de planification des tâches de haut niveau, de nombreux critères évaluent les capacités de planification au moyen de tâches de questions et réponses.Ein idealerer Ansatz wäre jedoch eine umfassende Bewertung der Ausführungsfähigkeiten von Missionsplanern auf hoher Ebene und von Kontrollstrategien auf niedriger Ebene, insbesondere bei der Durchführung von Langzeitmissionen und der Messung der Erfolgsraten, anstatt sich ausschließlich auf die Bewertung von Planern allein zu verlassen. Dieser umfassende Ansatz ermöglicht eine umfassendere Bewertung der Fähigkeiten verkörperter intelligenter Systeme.

Kurz gesagt ermöglicht die verkörperte Intelligenz intelligenten Agenten, verschiedene Objekte im digitalen Raum und in der physischen Welt wahrzunehmen, zu erkennen und mit ihnen zu interagieren, was ihre Bedeutung für die Verwirklichung allgemeiner künstlicher Intelligenz zeigt. Diese Übersicht bietet einen umfassenden Überblick über verkörperte Roboter, verkörperte Simulationsplattformen, verkörperte Wahrnehmung, verkörperte Interaktion, verkörperte Agenten, virtuelle Robotersteuerung und zukünftige Forschungsrichtungen, die Auswirkungen auf die Förderung der Entwicklung verkörperter Intelligenz haben.

Über das Institut für Multi-Agenten und verkörperte Intelligenz des Pengcheng-Labors

Das dem Pengcheng-Labor angegliederte Institut für Multi-Agenten und verkörperte Intelligenz bringt Dutzende von Experten für intelligente Wissenschaft und Robotik zusammen. Top-Nachwuchs Wissenschaftler auf diesem Gebiet, die sich auf unabhängig steuerbare KI-Infrastrukturen wie Pengcheng Cloud Brain und China Computing Network stützen, engagieren sich für den Aufbau von Multi-Agenten-Kollaborations- und Simulationstrainingsplattformen, Cloud-kollaborativen verkörperten multimodalen Großmodellen und anderen allgemeinen Basisplattformen, um dies zu ermöglichen kann wichtige Anwendungsanforderungen wie industrielles Internet, soziale Governance und Dienste erfüllen.