Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie-IA-php.cn

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Les grands modèles linguistiques (LLM) démontrent des performances impressionnantes dans la compréhension du langage et diverses tâches de raisonnement. Cependant, ils restent sous-étudiés sur un aspect clé de la cognition humaine : le raisonnement spatial. Les humains ont la capacité de créer des images mentales d'objets et d'actions invisibles grâce à un processus connu sous le nom de Mind's Eye, permettant d'imaginer le monde invisible. Inspirés par cette capacité cognitive, les chercheurs ont proposé la Visualisation de la pensée (VoT). VoT vise à guider le raisonnement spatial des LLM en visualisant leurs signes de raisonnement, guidant ainsi les étapes de raisonnement ultérieures. Les chercheurs ont appliqué la VoT à des tâches de raisonnement spatial à plusieurs sauts, notamment la navigation en langage naturel, la navigation visuelle et le pavage visuel dans un monde en grille bidimensionnel. Les résultats expérimentaux montrent que la VoT améliore considérablement les capacités de raisonnement spatial des LLM. Notamment, VoT surpasse les modèles multimodaux de grand langage (MLLM) existants sur ces tâches.

Introduction

Ces dernières années, les grands modèles de langage (LLM) ont atteint des performances remarquables sur diverses tâches liées au langage. Malgré leur succès dans le raisonnement mathématique, le raisonnement de bon sens et d’autres tâches de raisonnement telles que le raisonnement symbolique ou logique, leurs capacités en raisonnement spatial restent sous-explorées.

Le raisonnement spatial est une fonction fondamentale de la cognition humaine, nous permettant d'interagir avec notre environnement. Il facilite les tâches qui nécessitent une compréhension et un raisonnement sur les relations spatiales entre les objets et leur mouvement. Le raisonnement spatial des modèles linguistiques s'appuie fortement sur le langage pour raisonner sur les informations spatiales, et les capacités cognitives humaines dépassent de loin le raisonnement linguistique. Les humains peuvent non seulement créer des représentations abstraites pertinentes pour une tâche à partir de la perception visuelle, mais également imaginer des scènes invisibles à travers l'œil de l'esprit. Il s'agit d'un sujet de recherche connu sous le nom d'imagerie mentale dans les domaines des neurosciences, de la philosophie de l'esprit et des sciences cognitives. En s’appuyant sur cette fonction cognitive, les humains facilitent le raisonnement spatial grâce à la manipulation d’images mentales, telles que la navigation, la rotation mentale, le pliage mental du papier et la simulation mentale. La figure 1 illustre les processus humains impliqués dans les tâches de navigation. Les humains améliorent leur conscience spatiale et guident leur prise de décision en créant des images mentales de chemins, en utilisant diverses entrées sensorielles telles que des instructions de navigation ou des images cartographiques. Ils ont ensuite simulé la planification d'un chemin à travers l'œil de l'esprit.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Figure 1 : Les humains peuvent améliorer leur conscience spatiale et guider la prise de décision en créant des images mentales lors du raisonnement spatial. De même, les grands modèles de langage (LLM) peuvent créer des images mentales internes. Les chercheurs ont proposé que VoT déclenche « l’œil mental » des LLM en visualisant leur réflexion à chaque étape intermédiaire, favorisant ainsi le raisonnement spatial.

Inspirés par ce mécanisme cognitif, les chercheurs spéculent que les LLM ont la capacité de créer et de manipuler des images mentales dans l'œil de l'esprit pour un raisonnement spatial. Comme le montre la figure 1, les LLM peuvent potentiellement traiter et comprendre des informations spatiales dans divers formats. Ils peuvent être capables de visualiser des états internes et de manipuler ces images mentales à travers l'œil de l'esprit pour guider les étapes de raisonnement ultérieures afin d'améliorer le raisonnement spatial. Par conséquent, les chercheurs ont proposé des invites de

Visualisation de la pensée (VoT) pour susciter cette capacité. Cette méthode ajoute un carnet de croquis visuo-spatial aux LLM pour visualiser leurs étapes de raisonnement et guider les étapes suivantes. VoT n'utilise aucune invite de démonstration, plutôt que de s'appuyer sur quelques démonstrations ou d'utiliser CLIP pour la visualisation texte-image. Ce choix découle de la capacité des LLM à obtenir une variété d’images mentales à partir d’art visuel basé sur du texte.

Pour évaluer l'efficacité de la VoT dans le raisonnement spatial, les chercheurs ont sélectionné trois tâches qui nécessitent une conscience spatiale des LLM, notamment la

la navigation en langage naturel, la navigation visuelle et le pavage visuel. Ces tâches nécessitent de comprendre le raisonnement spatial, directionnel et géométrique. Pour simuler une perception multisensorielle de type humain, les chercheurs ont conçu un monde en grille 2D utilisant des caractères spéciaux comme format d'entrée riche dans les tâches de navigation visuelle et de pose visuelle des LLM. Différents modèles (GPT-4, GPT-4V) et techniques d'incitation ont été comparés sur ces trois tâches. Les résultats de la recherche montrent que les VoT invitent systématiquement les LLM à visualiser leurs étapes de raisonnement et à guider les étapes suivantes. Par conséquent, cette méthode permet d’obtenir des améliorations significatives des performances sur les tâches correspondantes.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Figure 2 : Exemples de cartes de navigation dans différents contextes, avec un emoji maison représentant le point de départ et un emoji bureau représentant la destination.

Raisonnement spatial

Le raisonnement spatial fait référence à la capacité de comprendre et de raisonner sur les relations spatiales entre les objets, leurs mouvements et leurs interactions. Cette compétence est importante pour un large éventail d'applications du monde réel, telles que la navigation, la robotique et la conduite autonome. Ces domaines nécessitent une planification d’action basée sur la perception visuelle et une compréhension détaillée des dimensions spatiales. Bien que plusieurs tâches et ensembles de données aient été développés pour explorer la sémantique spatiale intégrée dans le texte, les efforts de recherche se sont généralement concentrés sur la manière dont les termes spatiaux sont structurés linguistiquement. Récemment, des réalisations significatives et des résultats impressionnants ont été obtenus sur ces critères en convertissant les termes spatiaux en formes logiques et en employant une programmation logique. Cela signifie que de bons résultats dans ces tâches ne signifient pas nécessairement que les grands modèles de langage (LLM) comprennent réellement les informations spatiales, ni ne fournissent une mesure précise de leur conscience spatiale. La conscience spatiale implique la compréhension des relations spatiales, des directions, des distances et de la géométrie, qui sont essentielles à la planification des actions dans le monde physique. Pour évaluer la conscience spatiale et les capacités de raisonnement spatial des LLM, les chercheurs ont sélectionné un certain nombre de tâches qui testent les compétences de navigation et de raisonnement géométrique, notamment la navigation en langage naturel, la navigation visuelle et le pavage visuel.

Navigation en langage naturel

La navigation en langage naturel consiste à parcourir la structure spatiale sous-jacente à travers une marche aléatoire, dans le but d'identifier les emplacements précédemment visités. Le concept s’inspire de recherches antérieures sur la cognition humaine, utilisant une approche similaire à une marche aléatoire le long d’une structure graphique. Ce processus nécessite une compréhension de la fermeture de boucle, essentielle à la navigation spatiale.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Navigation visuelle

La tâche de navigation visuelle présente aux LLM un monde de grille synthétique en 2D et les met au défi de naviguer à l'aide d'indices visuels. Le modèle doit générer des instructions de navigation pour se déplacer dans quatre directions (gauche, droite, haut et bas) d'un point de départ à une destination tout en évitant les obstacles. Cela implique deux sous-tâches : la planification d’itinéraire et la prédiction de l’étape suivante, qui nécessitent un raisonnement spatial multi-sauts, le premier étant plus complexe.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Visual Laying

Visual Laying est un défi classique de raisonnement spatial. L'extension de ce concept pour tester la capacité des LLM à comprendre, organiser et raisonner sur des formes dans une zone limitée améliore l'évaluation des compétences de raisonnement spatial. La tâche implique un rectangle avec des cellules vides et divers blocs de dominos, tels que le bloc I-domino composé de quatre carrés alignés. Le modèle doit choisir la variante appropriée du bloc domino, comme le choix de la direction du bloc I-domino, pour résoudre le puzzle de questions et réponses.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Figure 3 : Exemple de pose visuelle avec des blocs dominos masqués. L'image ne montre pas les variations en rotation et en miroir des blocs de dominos.

PenserIndices visuels

Étant donné la façon dont les humains traitent les informations spatiales dans des tâches telles que la navigation, des images mentales, telles que des cartes, sont souvent créées pour améliorer la conscience spatiale ou simuler un mouvement pour guider la prise de décision. L'objectif de la recherche est d'évoquer la conscience spatiale des LLM et de permettre un raisonnement basé sur des situations réelles en visualisant leurs étapes de raisonnement intermédiaires.

Les chercheurs introduisent l'invite de visualisation de la pensée (VoT) : « Visualisez l'état après chaque étape de raisonnement. » Ce nouveau paradigme de raisonnement spatial vise à générer des signes de raisonnement et des résultats de visualisation de manière entrelacée.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Figure 4 : Exemples d'invites VoT dans trois tâches, où LLM génère des signes d'inférence et des visualisations de manière entrelacée pour suivre les changements d'état au fil du temps.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Papier : https://arxiv.org/pdf/2404.03622.pdf

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Raisonnement spatial

Navigation en langage naturel

Navigation visuelle

Visual Laying

PenserIndices visuels