


Warum die Generierung von Abrufen von Abrufen immer noch im Zeitalter von langkontexten Sprachmodellen relevant ist
Feb 25, 2025 pm 07:31 PMLassen Sie uns die Entwicklung der retrieval-generierten Generation (LAG) im Kontext immer leistungsstärkerer großer Sprachmodelle (LLMs) untersuchen. Wir werden untersuchen, wie sich die Fortschritte in LLMs auf die -Onusagen von Rag auswirken.
Eine kurze Geschichte von Rag
Rag ist kein neues Konzept. Die Idee, LLMs für den Zugriff auf aktuelle Daten einen Kontext bereitzustellen, enthält Wurzeln in einem Facebook/Meta-Papier von 2020, "Abruf-generaler Generation für wissensintensive NLP-Aufgaben"-Prädating von Chatgpts Debüt im November 2022. In diesem Artikel wurde zwei Arten von Speicher für LLMs hervorgehoben:
- Parametrischer Speicher: Das Wissen, das dem LLM inhärent ist, wurde während seines Trainings in riesigen Textdatensätzen erworben.
- Nichtparametrischer Speicher: externer Kontext, der in der Eingabeaufforderung bereitgestellt wird.
Das Originalpapier verwendete Text -Einbettungen für semantische Suche, um relevante Dokumente abzurufen, obwohl dies nicht die einzige Methode zum Abrufen von Dokumenten in Lag ist. Ihre Forschung hat gezeigt, dass Lappen genauere und sachliche Reaktionen im Vergleich zur Verwendung der LLM allein lieferte.
Chatgpts November 2022 Start enthüllte das Potenzial von LLMs für die Beantwortung von Abfragen, hob aber auch die Einschränkungen hervor:
- Begrenztes Wissen: llms mangelt keinen Zugriff auf Informationen, die über ihre Trainingsdaten hinausgehen.
- Halluzinationen: llms kann Informationen erstellen, anstatt Unsicherheit zuzugeben.
llms beruhen ausschließlich auf Trainingsdaten und Eingabeaufgaben. Abfragen außerhalb dieses Umfangs führen häufig zu hergestellten Antworten.
Während der vorhandenen Chatgpt vor dem Lag stieg seine weit verbreitete Akzeptanz im Jahr 2023 erheblich an. Das Kernkonzept ist einfach: Anstatt die LLM direkt abzufragen basierend
ausschließlich auf diesem Kontext. Die Eingabeaufforderung dient als Ausgangspunkt des LLM für die Antwortgenerierung.
Dieser Ansatz reduzierte die Halluzinationen erheblich, ermöglichte den Zugriff auf aktuelle Daten und erleichterte die Verwendung geschäftsspezifischer Daten.
Rags frühe Einschränkungen
Erste Herausforderungen, die sich auf die begrenzte Kontextfenstergröße konzentrieren. Die 4K-Token-Grenze von Chatgpt-3.5 (ungefähr 3000 englische Wörter) beschränkte die Menge an Kontext und Antwortlänge. Es war ein Gleichgewicht erforderlich, um übermäßig lange Kontexte (begrenzende Antwortlänge) oder unzureichender Kontext (Risikoabgabe entscheidender Informationen) zu vermeiden.
Das Kontextfenster wirkt wie eine begrenzte Tafel; Mehr Platz für Anweisungen lässt weniger für die Antwort.
Die aktuelle Landschaft
Seitdem sindsignifikante Änderungen aufgetreten, vor allem in Bezug auf die Kontextfenstergröße. Modelle wie GPT-4O (veröffentlicht Mai 2024) haben ein 128-k-Token-Kontextfenster, während Googles Gemini 1.5 (seit Februar 2024 verfügbar) ein massives Token-Fenster von 1 Million anbietet.
Die sich verändernde Rolle von Rag
Diese Zunahme der Kontextfenstergröße hat eine Debatte ausgelöst. Einige argumentieren, dass die Notwendigkeit eines sorgfältig ausgewählten Kontextes mit der Fähigkeit, ganze Bücher in die Eingabeaufforderung aufzunehmen, verringert ist. Eine Studie (Juli 2024) deutete sogar darauf hin, dass in bestimmten Szenarien die Eingabeaufforderungen in den Langkontext übertreffen könnten.
Augmented Generation oder Long Context LLMs? Eine umfassende Studie und ein hybrider Ansatz
Eine neuere Studie (September 2024) entgegenwirkte jedoch, in der die Bedeutung von RAG betont und darauf hindeutet, dass frühere Einschränkungen aus der Reihenfolge der Kontextelemente innerhalb der Eingabeaufforderung zurückzuführen sind.
zur Verteidigung von Lappen im Zeitalter von langkontextsprachigen Modellen
Eine weitere relevante Studie (Juli 2023) hob die Positionsauswirkungen von Informationen innerhalb langer Eingabeaufforderungen hervor.
in der Mitte verloren: Wie Sprachmodelle lange Kontexte verwenden
Informationen zu Beginn der Eingabeaufforderung werden vom LLM leichter verwendet als Informationen in der Mitte.
Die Zukunft von Rag
Trotz der Fortschritte in der Kontextfenstergröße bleibt LAG von entscheidender Bedeutung, hauptsächlich aufgrund von Kostenüberlegungen. Längere Aufforderungen erfordern mehr Verarbeitungsleistung. Durch die Begrenzung der sofortigen Größe auf wesentliche Informationen wird die Rechenkosten erheblich reduziert. Die Zukunft von LAG kann die Filterung irrelevanter Informationen aus großen Datensätzen beinhalten, um die Kosten zu optimieren und Qualität zu beantworten. Die Verwendung kleinerer, spezialisierter Modelle, die auf bestimmte Aufgaben zugeschnitten sind, wird wahrscheinlich ebenfalls eine bedeutende Rolle spielen.
Das obige ist der detaillierte Inhalt vonWarum die Generierung von Abrufen von Abrufen immer noch im Zeitalter von langkontexten Sprachmodellen relevant ist. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heißer Artikel

Hot-Tools-Tags

Heißer Artikel

Heiße Artikel -Tags

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Was ist das Modellkontextprotokoll (MCP)?

Aufbau eines lokalen Vision Agents mit Omniparser V2 und Omnitool

Replit Agent: Ein Leitfaden mit praktischen Beispielen

Runway Act-One Guide: Ich habe mich gefilmt, um es zu testen

Elon Musk & Sam Altman kämpfen über 500 Milliarden US -Dollar Stargate -Projekt

Deepseek veröffentlicht 3FS & Smallpond Framework

5 Grok 3 Eingabeaufforderungen, die Ihre Arbeit erleichtern können

Ich habe versucht, die Vibe -Codierung mit Cursor AI und es ist erstaunlich!
