大規模言語モデル (LLM) は、滑らかで一貫したテキストを生成する機能を備えており、人工知能の対話や創造的な文章などの分野に新たな可能性をもたらします。ただし、LLM にはいくつかの重要な制限もあります。まず、彼らの知識はトレーニング データから認識されたパターンに限定されており、世界に対する真の理解が欠けています。第 2 に、推論スキルには限界があり、論理的な推論を行ったり、複数のデータ ソースからの事実を融合したりすることができません。より複雑で自由回答の質問に直面すると、LLM の答えは「幻想」として知られる不条理または矛盾したものになる場合があります。したがって、LLM はいくつかの面では非常に便利ですが、複雑な問題や現実世界の状況を扱う場合には、依然として一定の制限があります。
これらのギャップを埋めるために、検索拡張生成 (RAG) システムが近年登場しました。中心となるアイデアは、関連する知識を外部ソースから取得して LLM にコンテキストを提供することです。より多くの情報に基づいた意思決定を行うことができます。現在のシステムは主にベクトル埋め込みの意味的類似性を使用してパッセージを取得しますが、このアプローチには、真の相関関係の欠如、事実を集約できないこと、推論チェーンの欠如など、独自の欠点があります。ナレッジグラフの応用分野はこれらの問題を解決できます。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現したものです。文脈上の事実間の相互接続をエンコードすることにより、ナレッジ グラフは純粋なベクトル検索の欠点を克服し、グラフ検索により複数の情報ソースにわたる複雑なマルチレベル推論が可能になります。
ベクトル埋め込みとナレッジ グラフを組み合わせることで、LLM の推論能力が向上し、その精度と解釈可能性が向上します。このパートナーシップにより、表面セマンティクスと構造化された知識およびロジックが完全に融合され、LLM が統計学習と記号表現を同時に適用できるようになります。
図
ほとんどの RAG システムは、ドキュメント コレクション内の段落全体を検索します。 LLM のコンテキストを見つけるためのベクトル検索。このプロセスにはいくつかの重要な手順があります。
このパイプラインにはいくつかの大きな制限があります:
#クエリがより複雑になるにつれて、何が取得されるかを推論することができないという制限がますます明らかになります。
ナレッジ グラフはエンティティと関係に基づいており、相互接続されたネットワークを通じて情報を送信し、パフォーマンスを向上させます。複雑な推論 検索機能。
#ナレッジ グラフは、単なる一致ではなく、グラフを走査してクエリに関連するコンテキスト上の事実を収集するプロセスです。解釈可能なランキング手法は、グラフのトポロジを利用して、構造化された事実、関係、コンテキストをエンコードすることで検索機能を向上させ、それによって正確な複数ステップの推論を可能にします。このアプローチは、純粋なベクトル検索と比較して、より優れた相関性と説明力を提供します。
連続ベクトル空間へのナレッジ グラフの埋め込みは、現在の研究のホットスポットです。ナレッジ グラフはベクトル埋め込みを使用してエンティティと関係を表現し、数学的演算をサポートします。さらに、制約を追加すると、表現をさらに最適化できます。
シンプルで普遍的な制約がナレッジ グラフの埋め込みに追加され、より最適化され、解釈が容易になり、論理的に互換性のある表現が得られます。埋め込みにより、より正確で解釈可能な推論を実現するために、さらなる複雑さを導入することなく、現実世界の構造とルールを模倣する帰納的バイアスが得られます。
ナレッジ グラフでは、新しい事実を導き出し、質問に答え、予測を行うための推論が必要です。さまざまなテクノロジーには、補完的な利点があります。:
論理ルールは知識を論理公理とオントロジーとして表現し、定理の証明を通じて合理的かつ完全な推論を実行し、限定的な不確実性の処理を実現します。グラフ埋め込みは、ベクトル空間演算に使用される埋め込みナレッジ グラフ構造であり、不確実性を処理できますが、表現力に欠けます。ベクトル ルックアップと組み合わせたニューラル ネットワークは適応的ですが、推論は不透明です。ルールはグラフの構造やデータを統計的に解析することで自動的に作成できますが、その品質は不確実です。ハイブリッド パイプラインは論理ルールを通じて明示的な制約をエンコードし、エンベディングはベクトル空間操作を提供し、ニューラル ネットワークは共同トレーニングを通じて融合の利点を獲得します。ケースベース、ファジー論理、または確率論的論理手法を使用して、透明性を高め、ルールの不確実性と信頼性を表現します。推論された事実と学習したルールをグラフに具体化し、フィードバック ループを提供することで知識を拡張します。
重要なのは、必要な推論のタイプを特定し、それらを適切な手法にマッピングすることです。論理形式、ベクトル表現、ニューロン コンポーネントを組み合わせた構成可能なパイプラインにより、堅牢性とスケーラビリティが提供されます。 。
LLM のナレッジ グラフでファクトを取得すると、情報のボトルネックが発生し、関連性を維持するための設計が必要になります。コンテンツを小さなチャンクに分割すると、分離性は向上しますが、周囲のコンテキストが失われるため、チャンク間の推論が妨げられます。ブロックの概要を生成すると、意味を強調するために重要な詳細が凝縮され、より簡潔なコンテキストが提供されます。概要、タイトル、タグなどをメタデータとして添付して、ソース コンテンツに関するコンテキストを維持します。元のクエリをより詳細なバージョンに書き直すと、LLM のニーズに合わせて取得をより適切に行うことができます。ナレッジ グラフのトラバーサル機能は、事実間のつながりを維持し、コンテキストを維持します。時系列または関連性によって並べ替えることで、LLM の情報構造を最適化でき、暗黙の知識を LLM について述べられた明示的な事実に変換することで、推論が容易になります。
目標は、取得した知識の関連性、コンテキスト、構造、および明示的な表現を最適化し、推論能力を最大化することです。粒度と凝集性の間でバランスを取る必要があります。ナレッジ グラフの関係は、孤立した事実のコンテキストを構築するのに役立ちます。
ナレッジ グラフと組み込みテクノロジを組み合わせると、互いの弱点を克服できるという利点があります。
ナレッジ グラフは、エンティティと関係の構造化された表現を提供します。トラバーサル関数を通じて複雑な推論機能を強化し、マルチレベルの推論を処理します。埋め込みにより、ベクトル空間での類似性に基づく操作の情報をエンコードし、特定のスケールでの効果的な近似検索をサポートし、潜在的なパターンを明らかにします。ジョイント エンコーディングは、ナレッジ グラフ内のエンティティと関係の埋め込みを生成します。グラフ ニューラル ネットワークは、微分可能なメッセージ パッシングを介してグラフ構造と埋め込み要素に対して動作します。
ナレッジ グラフは最初に構造化された知識を収集し、次に関連コンテンツに焦点を当てた検索と取得を埋め込みます。明示的なナレッジ グラフの関係により、推論プロセスに解釈可能性が提供されます。推論された知識はグラフに拡張でき、GNN は連続表現の学習を提供します。
#このパートナーシップはパターンによって認識できます。力とニューラル ネットワークの拡張性により、構造化された知識の表現が強化されます。これは、言語 AI を進歩させるための統計学習と記号ロジックの必要性の鍵となります。
4.3 協調フィルタリングを使用して検索を向上させる協調フィルタリングでは、エンティティ間の接続を使用して検索を強化します。一般的なプロセスは次のとおりです:
写真
5. RAG エンジンを強化する - データ フライホイール継続的な改善を構築する高性能の検索拡張生成 (RAG) システムでは、データ フライホイールの実装が必要になる場合があります。ナレッジ グラフは、構造化された世界の知識を提供することで、言語モデルの新しい推論機能を解き放ちます。ただし、高品質のマップを構築することは依然として困難です。ここでデータ フライホイールが登場し、システムの相互作用を分析することでナレッジ グラフを継続的に改善します。
すべてのシステム クエリ、応答、スコア、ユーザー アクション、その他のデータを記録し、ナレッジ グラフの使用方法を可視化し、データ集約を使用して悪い応答を明らかにし、これらの応答をクラスター化して分析します、知識のギャップを示すパターンを特定します。問題のあるシステム応答を手動で確認し、マップ内の欠落または不正確な事実に問題を追跡します。次に、グラフを直接変更して、欠落している事実データを追加し、構造を改善し、明確さを高めます。上記のステップは連続ループで完了し、各反復でナレッジ グラフがさらに強化されます。
ニュースやソーシャル メディアなどのストリーミング リアルタイム データ ソースは、ナレッジ グラフを最新の状態に保つために新しい情報を継続的に提供します。クエリ生成を使用して重大な知識のギャップを特定し、埋めることは、ストリーミングが提供する範囲を超えています。グラフの穴を見つけて質問し、欠落している事実を検索して追加します。サイクルごとに、ナレッジ グラフは使用パターンの分析とデータの問題の修正によって徐々に強化され、改善されたグラフによってシステムのパフォーマンスが向上します。
このフライホイール プロセスにより、実際の使用からのフィードバックに基づいてナレッジ グラフと言語モデルを共進化させることができます。マップはモデルのニーズに合わせて積極的に変更されます。
つまり、データ フライホイールは、システムの相互作用を分析することにより、ナレッジ グラフを継続的かつ自動的に改善するための足場を提供します。これにより、グラフ依存言語モデルの精度、関連性、適応性が強化されます。
人工知能は外部の知識と推論を組み合わせる必要があり、そこでナレッジ グラフが登場します。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現し、世界とそれらの間のつながりに関する事実をコード化します。これにより、相互に関連する事実をたどることにより、複雑な論理的推論が複数のステップにまたがることが可能になります。
ただし、ナレッジ グラフには、スパース性や不確実性の欠如などの独自の制限があります。ここで、グラフの埋め込みが役立ちます。 。ナレッジ グラフ要素をベクトル空間でエンコードすることにより、埋め込みにより、大規模なコーパスから潜在パターンの表現までの統計的学習が可能になり、効率的な類似性に基づく操作も可能になります。
ナレッジ グラフもベクトル埋め込みも、それ自体では人間のような言語知能を形成するには十分ではありませんが、これらを組み合わせることで、構造化された知識表現、論理的推論、統計的学習の効果的な組み合わせが提供されます。グラフは、ニューラル ネットワークのパターン認識機能を超えた記号ロジックと関係をカバーしており、グラフ ニューラル ネットワークのようなテクノロジーは、情報転送グラフの構造と埋め込みを通じてこれらの方法をさらに統合します。この共生関係により、システムは統計学習と記号ロジックの両方を利用でき、ニューラル ネットワークと構造化された知識表現の利点を組み合わせることになります。
高品質のナレッジ グラフの構築、ベンチマーク テスト、ノイズ処理などにはまだ課題があります。ただし、シンボリック ネットワークとニューラル ネットワークにわたるハイブリッド テクノロジは依然として有望です。ナレッジ グラフと言語モデルが発展し続けるにつれて、それらの統合により説明可能な AI の新しい領域が開かれることになります。
以上がナレッジ グラフ: 大規模モデルの理想的なパートナーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。