


Pourquoi la génération auprès de la récupération est toujours pertinente à l'ère des modèles de langage à long contexte
Explorons l'évolution de la génération (RAG) (RAG) de la récupération dans le contexte de modèles de grand langage de plus en plus puissants (LLM). Nous examinerons comment les progrès des LLM affectent la nécessité du chiffon.
Une brève histoire du chiffon
Rag n'est pas un nouveau concept. L'idée de fournir un contexte à des LLM pour l'accès aux données actuelles a des racines dans un papier Facebook AI / Meta Facebook, "Génération de la récupération pour les tâches NLP à forte intensité de connaissances" - prédateur des débuts en novembre 2022 de Chatgpt. Cet article a mis en évidence deux types de mémoire pour les LLM:
- Mémoire paramétrique: Les connaissances inhérentes au LLM, acquises lors de sa formation sur de vastes ensembles de données de texte.
- Mémoire non paramétrique: Contexte externe fourni dans l'invite.
Le document d'origine a utilisé des incorporations de texte pour la recherche sémantique pour récupérer des documents pertinents, bien que ce ne soit pas la seule méthode de récupération de documents en chiffon. Leurs recherches ont démontré que RAG a donné des réponses plus précises et factuelles par rapport à l'utilisation du LLM seul.
L'impact de Chatgpt
Le lancement de Chatgpt en novembre 2022 a révélé le potentiel des LLM pour la réponse aux requêtes, mais également mis en évidence les limitations:
- Connaissances limitées: LLMS manquent d'accès à des informations au-delà de leurs données de formation.
- Hallucinations: LLMS peut fabriquer des informations plutôt que d'admettre l'incertitude.
LLMS s'appuient uniquement sur les données de formation et l'entrée rapide. Les requêtes en dehors de cette portée conduisent souvent à des réponses fabriquées.
la montée et le raffinement du chiffon
tandis que RAG prédaté Chatgpt, son adoption généralisée a considérablement augmenté en 2023. Le concept de base est simple: au lieu d'interroger directement le LLM, fournit un contexte pertinent dans l'invite et de demander à la LLM de répondre basé uniquement sur ce contexte.
L'invite sert de point de départ du LLM pour la génération de réponses.
<code>Use the following context to answer the user's question. If you don't know the answer, say "I don't know," and do not fabricate information. ---------------- {context}</code>
Cette approche a considérablement réduit les hallucinations, permis l'accès à des données à jour et facilité l'utilisation de données spécifiques à l'entreprise.
limites précoces de Rag
défis initiaux centrés sur la taille limitée de la fenêtre de contexte. La limite de jeton 4K de ChatGPT-3.5 (environ 3000 mots anglais) a limité la quantité de contexte et de longueur de réponse. Un équilibre était nécessaire pour éviter des contextes excessivement longs (limiter la durée de réponse) ou un contexte insuffisant (risquant l'omission d'informations cruciales).
La fenêtre de contexte agit comme un tableau noir limité; Plus d'espace pour les instructions laisse moins pour la réponse.
le paysage actuel
Des changements importants se sont produits depuis lors, principalement concernant la taille de la fenêtre de contexte. Des modèles comme GPT-4O (publié en mai 2024) possèdent une fenêtre de contexte de jeton de 128K, tandis que Gemini 1.5 de Google (disponible depuis février 2024) offre une fenêtre de jeton massive de 1 million de jetons.
le rôle de changement de rag
Cette augmentation de la taille des fenêtres de contexte a déclenché un débat. Certains soutiennent qu'avec la capacité d'inclure des livres entiers dans l'invite, le besoin d'un contexte soigneusement sélectionné est diminué. Une étude (juillet 2024) a même suggéré que les invites de contexte à long terme pourraient surpasser le chiffon dans certains scénarios.
GÉNÉRATION AUGMÉDÉE DE RECOURATION OU LLMS DE CONTAT-CONTEXT? Une étude complète et une approche hybride
Cependant, une étude plus récente (septembre 2024) a contré cela, soulignant l'importance du chiffon et suggérant que les limitations précédentes découlent de l'ordre des éléments de contexte dans l'invite.
Pour défendre le chiffon à l'ère des modèles de langage à long contexte
Une autre étude pertinente (juillet 2023) a mis en évidence l'impact positionnel des informations dans de longues invites.
perdu au milieu: comment les modèles de langue utilisent des contextes longs
Les informations au début de l'invite sont plus facilement utilisées par le LLM que les informations au milieu.
L'avenir de Rag
Malgré les progrès de la taille des fenêtres de contexte, le chiffon reste crucial, principalement en raison de considérations de coûts. Des invites plus longues exigent plus de puissance de traitement. Le chiffon, en limitant la taille rapide des informations essentielles, réduit considérablement les coûts de calcul. L'avenir du RAG peut impliquer le filtrage d'informations non pertinentes à partir de grands ensembles de données pour optimiser la qualité des coûts et des réponses. L'utilisation de modèles plus petits et spécialisés adaptés à des tâches spécifiques jouera également un rôle important.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Le codage des ambiances est de remodeler le monde du développement de logiciels en nous permettant de créer des applications en utilisant le langage naturel au lieu de lignes de code sans fin. Inspirée par des visionnaires comme Andrej Karpathy, cette approche innovante permet de dev

Révolutionment du développement des applications: une plongée profonde dans l'agent de repelit Vous en avez assez de lutter avec des environnements de développement complexes et des fichiers de configuration obscurs? Replit Agent vise à simplifier le processus de transformation des idées en applications fonctionnelles. Cet ai-p

Février 2025 a été un autre mois qui change la donne pour une IA générative, nous apportant certaines des mises à niveau des modèles les plus attendues et de nouvelles fonctionnalités révolutionnaires. De Xai's Grok 3 et Anthropic's Claude 3.7 Sonnet, à Openai's G

Yolo (vous ne regardez qu'une seule fois) a été un cadre de détection d'objets en temps réel de premier plan, chaque itération améliorant les versions précédentes. La dernière version Yolo V12 introduit des progrès qui améliorent considérablement la précision

Dall-E 3: Un outil de création d'images génératifs AI L'IA générative révolutionne la création de contenu, et Dall-E 3, le dernier modèle de génération d'images d'Openai, est à l'avant. Sorti en octobre 2023, il s'appuie sur ses prédécesseurs, Dall-E et Dall-E 2

Le projet de 500 milliards de dollars Stargate IA, soutenu par des géants de la technologie comme Openai, Softbank, Oracle et Nvidia, et soutenu par le gouvernement américain, vise à consolider la direction de l'IA américaine. Cette entreprise ambitieuse promet un avenir façonné par AI Advanceme

GROK 3 - Elon Musk et le dernier modèle d'IA de Xai est le discours de la ville ces jours-ci. De Andrej Karpathy aux influenceurs technologiques, tout le monde parle des capacités de ce nouveau modèle. Initialement, l'accès était limité à

Gencast de Google Deepmind: une IA révolutionnaire pour les prévisions météorologiques Les prévisions météorologiques ont subi une transformation spectaculaire, passant des observations rudimentaires aux prédictions sophistiquées alimentées par l'IA. Gencast de Google Deepmind, un terreau
