理解GraphRAG（一）：RAG的挑战-人工智能-PHP中文网

理解GraphRAG（一）：RAG的挑战

WBOY

发布： 2024-04-30 19:10:01

转载

1092 人浏览过

RAG（Risk Assessment Grid）是一种通过外部知识源增强现有大型语言模型（LLM）的方法，以提供和上下文更相关的答案。在RAG中，检索组件获取额外的信息，响应基于特定来源，然后将这些信息输入到LLM提示中，以使LLM的响应基于这些信息（增强阶段）。与其他技术（例如微调）相比，RAG更经济。它还有减少幻觉的优势，通过基于这些信息（增强阶段）提供额外的上下文——你RAG成为今天LLM任务的（如推荐、文本提取、情感分析等）的流程方法。

理解GraphRAG（一）：RAG的挑战

如果我们进一步分解这个想法，根据用户意图，我们通常会查询一个向量数据库。向量数据库使用连续的向量空间来捕捉两个概念之间的关系，使用基于接近度的搜索。

向量数据库概述

在向量空间中，无论是文本、图像、音频还是任何其他类型的信息，都被转换为向量。向量是数据在高维空间的数值表示。每个维度对应数据的一个特征，每个维度中的值反映了该特征的强度或存在。通过向量表示，我们可以对数据进行数学运算、距离计算和相似度比较等操作。不同维度对应的值反映了该特征的强度或存在与否。以文本数据为例，可以将每个文档表示为一个向量，其中每个维度表示一个单词在文档中的出现频率。这样，两个文档可以通过计算它们的向量之间的距离来

在数据库中进行基于接近度的搜索，涉及并使用另一个向量查询这些数据库，并搜索在向量空间中“接近”它的向量。向量之间的接近度通常由距离度量来确定，例如欧几里得距离、余弦相似度或曼哈顿距离。向量之间的接近度通常由距离度量来确定，例如欧几里得距离、余弦相似度或曼哈顿距离。

当您在向数据库中执行搜索时，您提供了一个系统将其转换为向量的查询。然后数据库计算该查询向量与数据库中已存储的向量之间的距离或相似性。接近查询向量的向量（根据所选择度量）被认为是最相关的结果。这些最接近查询向量的向量（根据所选度量）被认为是最相关的结果。

基于接近度的搜索在向量数据库中特别强大，适用于推荐系统、信息检索和异常检测等任务。

这种方法使系统能够更直观地运行，并通过理解数据中的上下文和深层含义，更有效地响应用户查询，而不仅仅依赖于表面匹配。

然而，在应用程序连接到数据库进行高级搜索方面存在一些限制，例如数据质量、处理动态知识的能力以及透明度。