Maison > Périphériques technologiques > IA > Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par l'Université Tsinghua West Lake de Hong Kong et la Chine

Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par l'Université Tsinghua West Lake de Hong Kong et la Chine

WBOY
Libérer: 2024-07-15 18:44:12
original
721 Les gens l'ont consulté
Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par lUniversité Tsinghua West Lake de Hong Kong et la Chine
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les auteurs de cet article sont Xu Rongwu, étudiant en deuxième année de maîtrise et Qi Zehan, doctorant en première année à l'École d'information interdisciplinaire. , Université Tsinghua. Ils sont également les principaux auteurs de cette revue.

Avec le développement rapide de l'intelligence artificielle et de la technologie des modèles à grande échelle, la génération augmentée par récupération (RAG) est devenue un paradigme majeur pour les modèles de langage à grande échelle permettant de générer du texte. Le représentant de cette technologie - Retrieval-Augmented Large Language Model (RALM) - peut utiliser directement les informations du document récupérées pour générer du contenu sans formation supplémentaire. Cet avantage le rend très populaire dans l'industrie. Il a été largement utilisé dans le monde. en tant que nouveau moteur de recherche Bing.

Cependant, depuis 2023, les problèmes auxquels RALM est confronté dans la gestion des conflits de connaissances sont progressivement devenus le centre de la recherche. Les conflits de connaissances affectent non seulement sérieusement les performances du modèle sur les tâches à forte intensité de connaissances, mais exposent également sa vulnérabilité à la désinformation, posant ainsi une menace pour la sécurité du modèle, en particulier dans les entreprises qui ont des exigences strictes en matière de scénarios d'application factuels. . Les conflits de connaissances se manifestent principalement par l'incohérence entre les connaissances paramétrées à l'intérieur du modèle et les informations contextuelles externes, ainsi que par l'incohérence interne des informations contextuelles externes. En outre, les chercheurs ont également observé des conflits entre les connaissances paramétrées au sein du modèle, c'est-à-dire des phénomènes auto-contradictoires. Cela peut être dû au fait que le modèle a appris des informations contradictoires au cours de la phase de pré-formation.

Regardons un exemple spécifique :

Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par lUniversité Tsinghua West Lake de Hong Kong et la Chine

Dans l'exemple ci-dessus, le grand modèle accepte une question factuelle : quelle équipe a remporté le plus de championnats en Coupe du monde ? Pour ce problème, un RALM peut récupérer des documents sur Internet et dans une base de données vectorielle, et en même temps ajouter des enregistrements de conversations historiques composés des invites précédentes de l'utilisateur, qui forment ensemble une connaissance contextuelle (Contexte, marqué en jaune dans la figure ci-dessus). . (sorti) ; en même temps, le grand modèle a également vu des informations pour répondre à cette question lors de la pré-formation. Ces informations constituent sa connaissance paramétrique, également connue sous le nom de « mémoire » du modèle (Connaissance Paramétrique, Mémoire, affichée en bleu dans). la figure ci-dessus) couleur marquée). Selon la source d'information des deux parties en conflit, nous pouvons la « (re)combinaison par paires » la diviser en trois catégories suivantes :

  • Le conflit contexte-mémoire est le conflit entre la connaissance du contexte et des paramètres. Exemple 1 : Les connaissances acquises par le modèle via la récupération Web sont instantanées, mais les connaissances apprises sont « obsolètes » Exemple 2 : Le modèle obtient de fausses informations erronées, qui entrent en conflit avec la connaissance des paramètres ;

  • Le conflit inter-contextuel est le conflit au sein de la connaissance du contexte. Exemple : Grâce à une recherche sur le Web, les informations obtenues sont contradictoires car elles ont été publiées à des moments différents ou mélangées à des informations erronées malveillantes.

  • Le conflit intra-mémoire est un conflit au sein de connaissances paramétrées. Exemple : Pour les questions et réponses factuelles, le modèle est stimulé pour produire des réponses avec des résultats différents sous la même invite sémantique, produisant des effets contradictoires.

La première littérature sur les conflits de connaissances remonte à l'article de Longpre et al dans EMNLP 2021 : Conflits de connaissances basés sur l'entité dans la réponse aux questions. Cet article construit des connaissances contradictoires dans la réponse aux questions en domaine ouvert via la méthode de remplacement d'entité nommée et évalue le modèle de langage de l'époque. Avec la montée en puissance des modèles linguistiques à grande échelle en 2023 et l'application généralisée du paradigme RAG dans l'industrie, l'intérêt des chercheurs pour les conflits de connaissances s'est progressivement accru, car il réduit considérablement les performances du modèle sur les tâches clés, en particulier les exigences de tâche d'authenticité.

Récemment, des chercheurs de l'Université Tsinghua, de l'Université de Cambridge, de l'Université Westlake et de l'Université chinoise de Hong Kong ont publié conjointement une étude pour mener une discussion détaillée de trois types différents de conflits de connaissances sous trois aspects : les causes, les manifestations et les solutions. les lecteurs comprennent mieux et répondent à ce défi. À notre avis, le conflit de connaissances est à la fois une cause de la performance en aval de divers modèles et un effet émergeant de la complexité naturelle de la connaissance elle-même et de l’apprentissage des connaissances par modèle.

Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par lUniversité Tsinghua West Lake de Hong Kong et la Chine

  • Adresse papier : https://arxiv.org/abs/2403.08319

  • Adresse du projet : https://github.com/pillowsofwind/Knowledge-Conflicts-Survey

Cette revue :

1. Le premier résumé systématique des travaux de recherche dans le domaine des conflits de connaissances ; Analyse complète des types de conflits que trois grands modèles peuvent rencontrer, en particulier la discussion des conflits de connaissances paramétrés

3 Nous avons non seulement discuté de l'analyse de chaque conflit, mais l'avons également examiné du point de vue de ses causes « cycle de vie », manifestations et stratégies possibles de résolution du conflit.

Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par lUniversité Tsinghua West Lake de Hong Kong et la Chine

Explorer les conflits contexte-mémoire : causes, manifestations et solutions

Causes Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par lUniversité Tsinghua West Lake de Hong Kong et la ChineLe cœur du conflit contexte-mémoire réside dans la différence entre les informations contextuelles et les connaissances paramétrées. Les causes de ce conflit sont principalement divisées en deux aspects : le désalignement temporel et la pollution par la désinformation.

1. Désalignement temporel

Le désalignement temporel signifie que les données historiques utilisées par le modèle pendant le processus de formation ne peuvent pas refléter avec précision la réalité actuelle ou future. Ce phénomène est particulièrement évident dans les grands modèles de langage, car ces modèles sont souvent pré-entraînés sur de grandes quantités de données statiques qui peuvent être obsolètes en réalité. Par exemple, un article sur les Jeux olympiques de 2020 pourrait ne plus être précis en 2024, mais le modèle pourrait toujours s'appuyer sur ces informations obsolètes pour faire des prédictions et répondre à des questions. La recherche montre que les performances des modèles linguistiques diminueront avec le temps. La manière dont la langue est utilisée, les changements culturels et la mise à jour des connaissances affecteront tous la capacité du modèle à traiter les informations actuelles.

2. Pollution par la désinformation

La pollution de l'information fait référence à des informations externes mélangées à des informations erronées ou trompeuses. Ces données inexactes affecteront le jugement et la capacité de prise de décision du modèle. Cette situation est particulièrement courante à l’ère d’Internet, où Internet regorge de toutes sortes de fausses informations, de rumeurs et de fausses nouvelles délibérément fabriquées. Des utilisateurs malveillants peuvent interférer avec le jugement du modèle en publiant de fausses informations sur le réseau. Par exemple, un attaquant malveillant pourrait publier de fausses informations médicales sur les réseaux sociaux afin d’induire en erreur les modèles qui s’appuient sur ces informations pour porter des jugements. La pollution de l'information affecte non seulement l'exactitude du modèle, mais mine également la confiance des utilisateurs dans le modèle. Les recherches montrent que la désinformation malveillante peut affaiblir considérablement la précision des systèmes automatisés de vérification des faits et des systèmes de questions-réponses en domaine ouvert.

Performance

Le comportement du modèle montre une complexité et une diversité significatives face à un conflit contexte-mémoire. Voici deux formes d'expression :

1. S'appuyer sur des connaissances paramétrées

Lorsqu'ils traitent des conflits entre le contexte et la mémoire, certains modèles ont tendance à trop s'appuyer sur leurs connaissances des paramètres internes et à ignorer les informations contextuelles fournies en externe. Ce comportement a été démontré lors des premières recherches sur les réponses aux questions en domaine ouvert (ODQA). Longpre et al. (2021) ont découvert que les modèles d'assurance qualité ont tendance à s'appuyer sur les connaissances de la mémoire lorsqu'ils sont confrontés à des conflits entre les informations contextuelles et leurs connaissances internes.

2. S'appuyer sur des informations contextuelles

D'un autre côté, certains modèles ont tendance à accepter des preuves externes lorsqu'ils y sont confrontés, même si les preuves contredisent leur mémoire interne. Les expériences de Chen et al. (2022) sur un modèle d'assurance qualité ont montré que le modèle a tendance à s'appuyer sur des connaissances contextuelles, contrairement aux conclusions de Longpre et al., qui ont été expliquées par Longpre construisant des informations contradictoires de manière trop simpliste. Récemment, Xie et al. (2023) ont manipulé de grands modèles pour générer des contextes de conflit « plus logiques » et ont découvert que les grands modèles étaient plus enclins à faire confiance aux preuves externes lorsqu'ils y étaient confrontés, même si les preuves contredisaient leurs connaissances des paramètres.

Solutions

Afin de gérer efficacement les conflits contexte-mémoire, les chercheurs ont proposé une variété de solutions, qui se divisent principalement en mesures préventives avant que le conflit ne survienne (stratégies pré-hoc) et en mesures de réponse après le conflit. . (stratégies post-hoc). Voici plusieurs solutions principales :

1. Mesures préventives

    Continuer l'apprentissage : réduire l'impact du désalignement temporel en pré-entraînant continuellement le modèle pour incorporer des données nouvelles et mises à jour. Par exemple, Lazaridou et al. (2021) recommandent de mettre à jour les connaissances internes du modèle grâce à une pré-formation continue pour rester au courant des dernières informations.
  • Édition des connaissances : mettez à jour directement les connaissances sur les paramètres du modèle formé pour refléter les dernières informations. Par exemple, De Cao et al. (2021) ont proposé une méthode d’édition de connaissances qui vise à modifier directement les connaissances internes du modèle pour corriger des informations erronées ou obsolètes. Cependant, l’un des inconvénients de l’édition des connaissances est qu’elle peut provoquer des conflits internes dans le modèle, c’est-à-dire induire le conflit intra-mémoire mentionné plus loin.
  • 2.
    • Réglage fin : en introduisant des méthodes telles que des contrefactuels et un contexte non pertinent, la capacité du modèle à contrôler le contexte et la robustesse sont améliorées. Par exemple, la méthode de réglage fin basée sur les connaissances (KAFT) proposée par Li et al. (2022) améliore la robustesse du modèle face à des informations contradictoires en introduisant des contrefactuels et un contexte non pertinent dans les ensembles de données de formation standard.

    • Technologie d'incitation (Prompting) : améliorez la dépendance du modèle au contexte grâce à des stratégies d'incitation spécialement conçues. Par exemple, Zhou et al. (2023) ont proposé une technique d'incitation concise et fidèle au contexte, qui a considérablement amélioré les performances du modèle dans les tâches sensibles au contexte.

    • Plug-in de connaissances : stockez les connaissances mises à jour via des modules de plug-in pour garantir que le modèle d'origine n'est pas affecté. Par exemple, la méthode d'assurance qualité à mise à jour continue (CuQA) proposée par Lee et al (2022) améliore la capacité de mise à jour des connaissances du modèle grâce à des plug-ins de connaissances sans affecter ses paramètres d'origine.

    • Technologie de décodage (Decoding) : En ajustant la stratégie de décodage, la probabilité que le modèle génère des hallucinations en cas de conflits de connaissances est réduite. Par exemple, la méthode de décodage contextuel (CAO) proposée par Shi et al. (2023) donne la priorité aux informations contextuelles en amplifiant la différence dans les probabilités de sortie, réduisant ainsi le caractère trompeur du modèle en cas d'informations contradictoires.

    En combinant ces mesures préventives et contre-mesures, la précision et la robustesse du modèle dans la gestion des conflits contexte-mémoire peuvent être améliorées sous différents angles, améliorant ainsi les performances du modèle et l'expérience utilisateur dans les applications pratiques.

    Explorez les conflits inter-contextuels : causes, manifestations et solutions

    Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par lUniversité Tsinghua West Lake de Hong Kong et la Chine

    Cause

    Le conflit inter-contextuel fait référence à la contradiction qui se produit lors de l'intégration de différentes informations externes, bien que ces informations externes puissent enrichir le la réponse du modèle mondial, mais peut également conduire à des conflits d'informations entre les contextes. Ce type de conflit se produit principalement parce que les informations externes peuvent contenir des informations erronées (Désinformation) et des informations obsolètes (Informations obsolètes).

    1. Désinformation

    La technologie Retrieval Augmentation Generation (RAG) améliore la qualité de réponse des grands modèles en intégrant des informations externes. Cependant, ces informations externes peuvent contenir du contenu faux. Par exemple, de fausses nouvelles ou du contenu trompeur généré par l’IA peuvent être mélangés, provoquant des conflits entre les informations récupérées. La manière dont le modèle gère ces conflits constitue un défi important. L’incapacité à résoudre efficacement ces conflits peut conduire à un contenu inexact généré par le modèle, exacerbant ainsi la propagation de fausses informations et rendant les informations encore plus confuses.

    2. Informations obsolètes

    Au fil du temps, les faits changeront. Lors de la récupération de fichiers externes, les modèles volumineux peuvent rencontrer des documents contenant à la fois des informations actuelles et obsolètes. Cette différence temporelle d’information peut conduire à des conflits entre contextes. Par exemple, les contradictions entre les derniers développements et des informations obsolètes sur un événement peuvent affecter l'exactitude de la réponse d'un modèle. Des informations obsolètes non seulement rendent les réponses du modèle inexactes, mais peuvent également amener les utilisateurs à perdre confiance dans le modèle.

    Performance

    Face à un conflit inter-contextuel, les grands modèles présentent des caractéristiques comportementales spécifiques du point de vue passif et actif :

    1. Impact sur les performances

    Les informations d'erreur ou d'obsolescence peuvent affecter de manière significative les performances des grands modèles. Par exemple, les recherches de Chen et al. (2022) ont également souligné que lorsque les modèles rencontrent des informations contradictoires, ils sont plus susceptibles de faire confiance aux informations directement liées au problème et à la connaissance des paramètres à l'intérieur du modèle. Pan et al. (2023a) ont constaté que les modèles linguistiques existants fonctionnaient mal face aux attaques de désinformation en insérant de faux articles Wikipédia dans le véritable corpus Wikipédia. Les recherches de Xie et al. (2023) ont en outre révélé que les grands modèles ont une préférence significative pour les preuves cohérentes avec la mémoire des paramètres du modèle, en particulier lorsque ces preuves impliquent des entités communes ou sont étayées par une documentation approfondie.

    2. Capacité de détection

    Détecter des informations contradictoires dans leur contexte est également une tâche importante. Li et al. (2023a) ont analysé la capacité de GPT-4, PaLM-2 et Llama 2 à détecter des documents contradictoires dans les actualités, les articles et les articles Wikipédia, et les résultats ont montré une faible précision de détection moyenne. Les recherches de Wan et al. (2024) ont révélé que les modèles existants s'appuient souvent fortement sur le contenu des documents liés aux requêtes lors de l'évaluation de la crédibilité des documents, mais ignorent les caractéristiques stylistiques que les humains considèrent comme importantes, telles que les citations scientifiques ou le ton neutre. Jin et al. (2024a) ont constaté que les grands modèles privilégient les preuves qui apparaissent le plus fréquemment dans leur contexte et montrent une nette préférence pour les informations externes cohérentes avec leur mémoire interne.

    Solution

    Afin de traiter efficacement les conflits inter-contextuels, les chercheurs ont proposé des solutions sous différents angles. Ces solutions sont principalement divisées en deux aspects : l'élimination des conflits et l'amélioration de la robustesse, résolvant les conflits inter-contextuels à la fois de manière active et active. perspectives passives.

    1. Éliminer les conflits

    • Modèles spécialisés : former spécifiquement un modèle pour mieux gérer des types spécifiques de conflits. Par exemple, Pielka et al. (2022) ont suggéré d'ajouter des connaissances linguistiques au processus d'apprentissage et d'améliorer la reconnaissance des informations contradictoires en introduisant des fonctionnalités grammaticales et sémantiques pour améliorer la capacité du modèle à détecter les contradictions.

    • Modèles généraux : utilisez des modèles généraux pour achever l'élimination des conflits. Chern et al. (2023) ont proposé un cadre de vérification des faits qui intègre plusieurs outils (tels que Google Search, Google Scholar, etc.) pour détecter les erreurs factuelles dans les textes. Cette approche repose non seulement sur la connaissance interne du modèle, mais combine également des informations récupérées en externe pour fournir une vérification plus complète des faits.

    2. Améliorer la robustesse

    • Approche de formation : Améliorer la robustesse du modèle face à des contextes conflictuels issus de l'algorithme de formation. Hong et al. (2023) ont proposé une nouvelle méthode de réglage fin pour améliorer la robustesse du modèle en entraînant simultanément le discriminateur et le décodeur. Cette méthode peut non seulement améliorer la stabilité du modèle face à des informations contradictoires, mais également améliorer sa capacité à gérer des informations complexes.

    • Augmentation des requêtes : améliorez la robustesse du modèle en introduisant davantage de connaissances externes pendant la phase d'inférence. Weller et al. (2022) ont proposé une technique d'amélioration des requêtes qui incite GPT-3 à extraire de nouvelles questions de la requête d'origine, en générant plusieurs requêtes liées à la question d'origine, le modèle peut ainsi vérifier l'exactitude de la réponse sous plusieurs angles. Réduisez les erreurs dues à une source d’information unique. Cette approche améliore non seulement la capacité du modèle à répondre à des informations contradictoires, mais augmente également l'exactitude et la fiabilité de ses réponses.

    Le conflit inter-contextuel est une partie importante du conflit de connaissances. La manière dont les grands modèles gèrent les informations contradictoires est une tâche critique. Grâce aux méthodes ci-dessus, la précision et la robustesse du modèle lors du traitement des conflits inter-contextuels peuvent être améliorées sous différents angles.

    Explorer les conflits intra-mémoire : causes, manifestations et solutions

    Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par lUniversité Tsinghua West Lake de Hong Kong et la Chine

    Cause

    Le conflit intra-mémoire fait référence au modèle montrant un comportement incohérent face à des entrées avec la même sémantique mais une syntaxe différente. Les principales raisons de ce conflit peuvent être divisées selon les aspects suivants :

    1. Biais dans les corpus de formation

    La principale phase d'acquisition des connaissances des LLM est terminée pendant la pré-formation, et ces données de pré-formation ont généralement été extraites du l'Internet. Ces données proviennent d'un large éventail de sources, notamment des médias sociaux, des articles de presse, des encyclopédies, etc., et leur qualité varie et peuvent contenir des informations inexactes ou trompeuses. Ces informations erronées sont mémorisées par le modèle et amplifiées lors de l'inférence, conduisant à des connaissances contradictoires au sein du modèle, ce qui peut conduire à de multiples réponses contradictoires lorsque le modèle répond à des questions pertinentes. Dans le même temps, les grands modèles codent souvent des corrélations superficielles dans les données d’entraînement, ce qui amène le modèle à émettre des jugements basés sur de fausses corrélations superficielles. En raison de leur dépendance à de fausses corrélations, les modèles peuvent donner des réponses différentes lorsqu'ils rencontrent des indices avec des structures syntaxiques différentes mais une sémantique identique.

    2. Stratégie de décodage

    La sortie du grand modèle est obtenue en échantillonnant la distribution de probabilité des mots suivants possibles. Différentes méthodes d'échantillonnage (telles que l'échantillonnage glouton, l'échantillonnage top-p, l'échantillonnage top-k, etc.) conduiront à un caractère aléatoire dans le contenu généré. Par exemple, lors de l'utilisation de l'échantillonnage top-k, le modèle sélectionnera de manière aléatoire le mot suivant parmi les k mots candidats avec la probabilité la plus élevée. Ce caractère aléatoire augmente l'incertitude de la sortie, permettant d'obtenir la même entrée à des moments différents. d’inférence.

    3. Édition des connaissances

    Afin de modifier efficacement les connaissances dans les grands modèles, les chercheurs ont proposé une technologie d'édition des connaissances. Ces techniques visent à modifier efficacement de petites zones de connaissances dans le modèle sans recycler l'intégralité du modèle. Cependant, ces méthodes d’édition peuvent rendre difficile la garantie de la cohérence des connaissances. Par exemple, modifier un fait (tel que les détails spécifiques d'une découverte scientifique) via l'édition des connaissances, mais ne pas mettre à jour simultanément toutes les connaissances qui s'y rapportent, peut amener le modèle à produire des réponses incohérentes face à différents problèmes. Dans le même temps, les connaissances modifiées peuvent ne pas être appliquées efficacement dans différentes situations, ce qui amène le modèle à produire des réponses incohérentes lors du traitement de différentes expressions des mêmes connaissances.

    Performance

    Le conflit intra-mémoire aura un impact significatif sur les performances des grands modèles, se reflétant principalement dans les aspects suivants :

    1.

    L'auto-incohérence signifie que les réponses générées par le modèle sont incohérentes face à des questions sémantiquement équivalentes mais ayant une syntaxe différente. Par exemple, des recherches montrent que même les modèles avancés comme GPT-4 présentent encore des incohérences dans 13 % des réponses lorsqu'il s'agit de questions de bon sens. Cela signifie que les utilisateurs posant la même question mais la posant différemment peuvent obtenir une réponse différente. D’un autre côté, lors du rappel de connaissances, un modèle peut s’appuyer davantage sur des associations superficielles de mots dans les données d’entraînement plutôt que sur une véritable compréhension des connaissances. Par exemple, un modèle peut associer de manière incorrecte certains mots qui apparaissent fréquemment, ce qui entraîne un écart entre les réponses générées et les attentes. Cette fausse corrélation exacerbe encore l'auto-incohérence des réponses du modèle.

    2. Représentation latente des connaissances

    L'architecture Transformer multicouche à l'intérieur du grand modèle entraîne le stockage de différentes représentations de connaissances à différents niveaux. Cette représentation dispersée des connaissances empêchera le modèle d'exprimer avec précision les connaissances stockées pendant le processus de génération. Par exemple, les niveaux superficiels peuvent stocker des informations de bas niveau, tandis que les niveaux profonds stockent des informations sémantiques. Cette dispersion des représentations multicouches empêche le modèle de coordonner différents niveaux de connaissances face à différents problèmes, produisant ainsi des réponses incohérentes.

    3. Incohérence interlingue

    Étant donné que les grands modèles maintiennent différents ensembles de connaissances dans différentes langues, cela entraîne des problèmes de cohérence interlingue. Par exemple, le même fait peut recevoir des réponses différentes dans différentes langues. Ce phénomène est particulièrement évident dans les questions et réponses multilingues. Par exemple, un modèle formé en anglais peut avoir une réponse précise à un fait, mais donner une réponse différente en espagnol.

    Solution

    Pour les conflits de mémoire interne, les chercheurs ont proposé une variété de solutions, qui peuvent être principalement divisées dans les catégories suivantes :

    1 Améliorer la cohérence

    • Réglage fin) : En introduisant la perte de cohérence. fonction et en la combinant avec la perte de formation du modèle de langage standard, un réglage fin est effectué pour améliorer la cohérence des connaissances du modèle. Par exemple, Li et al. (2023) ont utilisé les réponses générées par le modèle pour le vérifier et ont sélectionné des paires de réponses avec une cohérence plus élevée pour les affiner afin d'améliorer encore la cohérence des réponses générées.

    • Plug-in : Améliorez la cohérence du modèle grâce à la méthode d'intégration d'insertion de modules. Par exemple, Jang et Lukasiewicz (2023) ont proposé d'entraîner le modèle en utilisant la signification des mots du dictionnaire pour améliorer sa compréhension de la signification des symboles. Ces paramètres améliorés sont ensuite fusionnés avec ceux du modèle de langage existant pour améliorer la cohérence du modèle.

    • Output Ensemble : obtenez la réponse la plus correcte en synthétisant plusieurs sorties. Mitchell et al. (2022) ont proposé cette architecture à double modèle pour sélectionner la réponse finale la plus crédible et réduire les incohérences dans la génération du modèle en évaluant la cohérence logique entre les réponses.

    2. Améliorer la factualité

    Améliorer l'authenticité de la réponse du modèle, réduisant ainsi l'apparition d'incohérences dans le modèle lui-même. Par exemple, Li et al. (2023) ont proposé une méthode de détection des connaissances qui réduit les erreurs factuelles dans le processus de génération en identifiant les connaissances réelles contenues dans les paramètres du modèle et en ajustant les activations dans les directions liées à ces connaissances réelles lors de l'étape d'inférence.

    Les conflits de mémoire interne sont un défi important dans la recherche en LLM, et résoudre ce problème nécessite de partir de plusieurs étapes telles que la formation, la génération et le post-traitement. Même si les solutions actuelles ont atténué ce problème dans une certaine mesure, de nombreux défis restent encore à surmonter.

    Discussion 1 : Comment le modèle doit-il répondre aux conflits ?

    Idéalement, un modèle devrait être capable d'identifier les conflits et de fournir des réponses claires lorsqu'il est confronté à des conflits de connaissances. Cependant, les recherches ont montré que les modèles existants sont plus efficaces pour identifier la présence de conflits, mais il reste encore des défis à relever pour identifier les passages spécifiques du conflit et générer des réponses différenciées. D’un autre côté, certains chercheurs estiment que nous ne devrions pas laisser entièrement la tâche de « gérer les conflits » à l’IA représentée par de grands modèles, mais plutôt confier ce pouvoir aux humains.

    Discussion 2 : Défis actuels et orientations de recherche de suivi

    Analyse approfondie des conflits de connaissances dans les grands modèles RAG, publiée conjointement par lUniversité Tsinghua West Lake de Hong Kong et la Chine

    1 Conflits de connaissances dans des environnements réels :

    La recherche devrait se concentrer sur les situations où des conflits de connaissances se produisent naturellement dans le monde réel, par exemple lorsque. connexion directe depuis Internet Récupérez des documents dans des modèles de langage améliorés de récupération (RALM). Les conflits de connaissances créés artificiellement devraient être minimisés pour mieux refléter les applications pratiques.

    2. Solutions plus granulaires :

    Des solutions plus granulaires sont nécessaires, qui tiennent compte de la nature des requêtes des utilisateurs, des sources d'informations contradictoires et des attentes des utilisateurs. Les solutions doivent être adaptées à différents types de conflits (tels que la désinformation, les informations obsolètes ou les problèmes subjectifs), en reconnaissant l'ampleur du problème et les solutions potentielles.

    3. Évaluation des tâches en aval :

    Les recherches futures devraient aller au-delà des ensembles de données de questions et réponses courants pour évaluer l’impact des conflits de connaissances sur un plus large éventail d’applications. Cela inclut les domaines qui nécessitent une grande précision et cohérence, tels que l’analyse de documents juridiques, les diagnostics médicaux, l’analyse financière et les outils pédagogiques.

    4. Interactions entre conflits :

    Il est crucial d'étudier les interactions entre différents types de conflits, tels que les conflits de mémoire interne et les conflits de mémoire contextuelle. Comprendre ces relations peut révéler les mécanismes de représentation et de traitement des connaissances dans les grands modèles, conduisant au développement de modèles plus puissants.

    5. Interprétabilité :

    Nécessite un examen plus microscopique des mécanismes internes des grands modèles (tels que les têtes d'attention ou l'activation des neurones lors d'un conflit). Cela aidera à comprendre comment les modèles prennent des décisions lorsqu'ils sont confrontés à des conflits et à développer des méthodes de résolution de conflits telles que la correction des chemins et l'élagage.

    6. Multilinguisme :

    La recherche devrait explorer les indices non anglais et les conflits de connaissances entre les langues. Cela inclut les conflits de connaissances dans des langues autres que l'anglais, ainsi que les conflits contextuels entre plusieurs documents dans différentes langues.

    7. Multimodalité :

    Avec le développement de grands modèles permettant de gérer de multiples formats (texte, image, vidéo, audio), les recherches futures devraient se concentrer sur les conflits dans les environnements multimodaux. Le développement de LLM avancés capables de raisonnement multimodal et de résolution de conflits sur plusieurs types de données est nécessaire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal