ナレッジ グラフ: 大規模モデルの理想的なパートナー
大規模言語モデル (LLM) は、滑らかで一貫したテキストを生成する機能を備えており、人工知能の対話や創造的な文章などの分野に新たな可能性をもたらします。ただし、LLM にはいくつかの重要な制限もあります。まず、彼らの知識はトレーニング データから認識されたパターンに限定されており、世界に対する真の理解が欠けています。第 2 に、推論スキルには限界があり、論理的な推論を行ったり、複数のデータ ソースからの事実を融合したりすることができません。より複雑で自由回答の質問に直面すると、LLM の答えは「幻想」として知られる不条理または矛盾したものになる場合があります。したがって、LLM はいくつかの面では非常に便利ですが、複雑な問題や現実世界の状況を扱う場合には、依然として一定の制限があります。
これらのギャップを埋めるために、検索拡張生成 (RAG) システムが近年登場しました。中心となるアイデアは、関連する知識を外部ソースから取得して LLM にコンテキストを提供することです。より多くの情報に基づいた意思決定を行うことができます。現在のシステムは主にベクトル埋め込みの意味的類似性を使用してパッセージを取得しますが、このアプローチには、真の相関関係の欠如、事実を集約できないこと、推論チェーンの欠如など、独自の欠点があります。ナレッジグラフの応用分野はこれらの問題を解決できます。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現したものです。文脈上の事実間の相互接続をエンコードすることにより、ナレッジ グラフは純粋なベクトル検索の欠点を克服し、グラフ検索により複数の情報ソースにわたる複雑なマルチレベル推論が可能になります。
ベクトル埋め込みとナレッジ グラフを組み合わせることで、LLM の推論能力が向上し、その精度と解釈可能性が向上します。このパートナーシップにより、表面セマンティクスと構造化された知識およびロジックが完全に融合され、LLM が統計学習と記号表現を同時に適用できるようになります。
図
1. ベクトル検索の制限
ほとんどの RAG システムは、ドキュメント コレクション内の段落全体を検索します。 LLM のコンテキストを見つけるためのベクトル検索。このプロセスにはいくつかの重要な手順があります。
- #テキスト エンコーディング: システムは BERT のような埋め込みモデルを使用して、コーパス内の段落のテキストをベクトル表現にエンコードします。各記事はセマンティクスを捕捉するために高密度ベクトルに圧縮されます。
- インデックス付け: これらのチャネル ベクトルは高次元ベクトル空間でインデックス付けされ、高速な最近傍検索が可能になります。一般的な方法には、ファイスや松ぼっくりなどが含まれます。
- クエリ エンコード: ユーザーのクエリ ステートメントも、同じ埋め込みモデルを使用してベクトル表現にエンコードされます。
- 類似性検索: 最近傍検索はインデックス付き段落全体で実行され、距離メトリック (コサイン距離など) に基づいてクエリ ベクトルに最も近い段落を見つけます。
- 段落結果を返す: 最も類似した段落ベクトルを返し、元のテキストを抽出して LLM のコンテキストを提供します。
このパイプラインにはいくつかの大きな制限があります:
- チャネル ベクトルはクエリのセマンティクスを完全にはキャプチャしない可能性があります。埋め込みは特定の推論的な接続を表すことができず、重要なコンテキストが無視されてしまいます。
- 段落全体を 1 つのベクトルに圧縮するとニュアンスが失われ、文に埋め込まれた重要な関連詳細がぼやけてしまいます。
- マッチングは段落ごとに独立して行われ、異なる段落にまたがる共同分析は行われず、事実を結び付けて要約する必要のある答えに到達することができません。
- ランク付けと照合のプロセスは不透明であり、特定の文章がより関連性が高いとみなされる理由を説明する透明性はありません。
- 意味上の類似性のみがエンコードされ、関係、構造、ルール、およびそれらの間のその他の異なる接続を表す内容はエンコードされません。
- 意味ベクトルの類似性だけに焦点を当てると、検索における真の理解の欠如につながります。
#クエリがより複雑になるにつれて、何が取得されるかを推論することができないという制限がますます明らかになります。
2. ナレッジ グラフの統合
ナレッジ グラフはエンティティと関係に基づいており、相互接続されたネットワークを通じて情報を送信し、パフォーマンスを向上させます。複雑な推論 検索機能。
- 明示的なファクト。ファクトは不透明なベクトルに圧縮されるのではなく、ノードとエッジとして直接キャプチャされ、重要な詳細が保持されます。
- コンテキストの詳細、エンティティには、主要なコンテキストを提供する説明、エイリアス、メタデータなどの豊富な属性が含まれています。
- ネットワーク構造は、リレーションシップ モデリング エンティティ間の実際の接続、キャプチャ ルール、階層、タイムラインなどを表します。
- マルチレベル推論は、リレーションシップのトラバースと、さまざまなソースからの事実の結合に基づいて、複数のステップにわたる推論を必要とする答えを導き出します。
- フェデレーション推論は、エンティティ解決を通じて同じ現実世界のオブジェクトにリンクし、集合的な分析を可能にします。
- 解釈可能な相関関係、グラフ トポロジは、特定の basedonconnected ファクトが相関している理由を説明できる透明性を提供します。
- パーソナライゼーション、ユーザー属性、コンテキスト、および過去のインタラクションをキャプチャして結果を調整します。
#ナレッジ グラフは、単なる一致ではなく、グラフを走査してクエリに関連するコンテキスト上の事実を収集するプロセスです。解釈可能なランキング手法は、グラフのトポロジを利用して、構造化された事実、関係、コンテキストをエンコードすることで検索機能を向上させ、それによって正確な複数ステップの推論を可能にします。このアプローチは、純粋なベクトル検索と比較して、より優れた相関性と説明力を提供します。
3. 単純な制約を使用してナレッジ グラフの埋め込みを改善する
連続ベクトル空間へのナレッジ グラフの埋め込みは、現在の研究のホットスポットです。ナレッジ グラフはベクトル埋め込みを使用してエンティティと関係を表現し、数学的演算をサポートします。さらに、制約を追加すると、表現をさらに最適化できます。
- 非負性制約、つまりエンティティの埋め込みを 0 から 1 の間の正の値に制限すると、スパース性が生じ、その正のプロパティが明示的にモデル化され、解釈可能性が向上します。
- 含意制約は、対称性、反転、合成などの論理ルールを関係に埋め込まれた制約に直接エンコードして、これらのパターンを強制します。
- 信頼モデリング、スラック変数を使用したソフト制約は、証拠に基づいて論理ルールの信頼をエンコードできます。
- 有用な帰納的バイアスを課す正則化は、最適化をより複雑にすることなく、射影ステップを追加するだけです。
- 解釈可能性、構造化制約により、モデルによって学習されたパターンが透明になり、推論プロセスが説明されます。
- 精度と制約は、仮説空間を要件を満たす表現に縮小することで一般化を向上させます。
シンプルで普遍的な制約がナレッジ グラフの埋め込みに追加され、より最適化され、解釈が容易になり、論理的に互換性のある表現が得られます。埋め込みにより、より正確で解釈可能な推論を実現するために、さらなる複雑さを導入することなく、現実世界の構造とルールを模倣する帰納的バイアスが得られます。
4. 複数の推論フレームワークを統合する
ナレッジ グラフでは、新しい事実を導き出し、質問に答え、予測を行うための推論が必要です。さまざまなテクノロジーには、補完的な利点があります。:
論理ルールは知識を論理公理とオントロジーとして表現し、定理の証明を通じて合理的かつ完全な推論を実行し、限定的な不確実性の処理を実現します。グラフ埋め込みは、ベクトル空間演算に使用される埋め込みナレッジ グラフ構造であり、不確実性を処理できますが、表現力に欠けます。ベクトル ルックアップと組み合わせたニューラル ネットワークは適応的ですが、推論は不透明です。ルールはグラフの構造やデータを統計的に解析することで自動的に作成できますが、その品質は不確実です。ハイブリッド パイプラインは論理ルールを通じて明示的な制約をエンコードし、エンベディングはベクトル空間操作を提供し、ニューラル ネットワークは共同トレーニングを通じて融合の利点を獲得します。ケースベース、ファジー論理、または確率論的論理手法を使用して、透明性を高め、ルールの不確実性と信頼性を表現します。推論された事実と学習したルールをグラフに具体化し、フィードバック ループを提供することで知識を拡張します。
重要なのは、必要な推論のタイプを特定し、それらを適切な手法にマッピングすることです。論理形式、ベクトル表現、ニューロン コンポーネントを組み合わせた構成可能なパイプラインにより、堅牢性とスケーラビリティが提供されます。 。
4.1 LLM の情報フローの維持
LLM のナレッジ グラフでファクトを取得すると、情報のボトルネックが発生し、関連性を維持するための設計が必要になります。コンテンツを小さなチャンクに分割すると、分離性は向上しますが、周囲のコンテキストが失われるため、チャンク間の推論が妨げられます。ブロックの概要を生成すると、意味を強調するために重要な詳細が凝縮され、より簡潔なコンテキストが提供されます。概要、タイトル、タグなどをメタデータとして添付して、ソース コンテンツに関するコンテキストを維持します。元のクエリをより詳細なバージョンに書き直すと、LLM のニーズに合わせて取得をより適切に行うことができます。ナレッジ グラフのトラバーサル機能は、事実間のつながりを維持し、コンテキストを維持します。時系列または関連性によって並べ替えることで、LLM の情報構造を最適化でき、暗黙の知識を LLM について述べられた明示的な事実に変換することで、推論が容易になります。
目標は、取得した知識の関連性、コンテキスト、構造、および明示的な表現を最適化し、推論能力を最大化することです。粒度と凝集性の間でバランスを取る必要があります。ナレッジ グラフの関係は、孤立した事実のコンテキストを構築するのに役立ちます。
4.2 推論機能のロックを解除する
ナレッジ グラフと組み込みテクノロジを組み合わせると、互いの弱点を克服できるという利点があります。
ナレッジ グラフは、エンティティと関係の構造化された表現を提供します。トラバーサル関数を通じて複雑な推論機能を強化し、マルチレベルの推論を処理します。埋め込みにより、ベクトル空間での類似性に基づく操作の情報をエンコードし、特定のスケールでの効果的な近似検索をサポートし、潜在的なパターンを明らかにします。ジョイント エンコーディングは、ナレッジ グラフ内のエンティティと関係の埋め込みを生成します。グラフ ニューラル ネットワークは、微分可能なメッセージ パッシングを介してグラフ構造と埋め込み要素に対して動作します。
ナレッジ グラフは最初に構造化された知識を収集し、次に関連コンテンツに焦点を当てた検索と取得を埋め込みます。明示的なナレッジ グラフの関係により、推論プロセスに解釈可能性が提供されます。推論された知識はグラフに拡張でき、GNN は連続表現の学習を提供します。
#このパートナーシップはパターンによって認識できます。力とニューラル ネットワークの拡張性により、構造化された知識の表現が強化されます。これは、言語 AI を進歩させるための統計学習と記号ロジックの必要性の鍵となります。
4.3 協調フィルタリングを使用して検索を向上させる協調フィルタリングでは、エンティティ間の接続を使用して検索を強化します。一般的なプロセスは次のとおりです:
- ノードがエンティティを表し、エッジが関係を表すナレッジ グラフを構築します。
- 特定の主要なノード属性 (タイトル、説明など) の埋め込みベクトルを生成します。
- Vector Index - ノード埋め込みのベクトル類似性インデックスを構築します。
- 最近傍検索 - 検索クエリの場合、最も類似した埋め込みを持つノードを検索します。
- 協調調整 — ノード接続に基づいて、PageRank などのアルゴリズムを使用して類似性スコアが伝播および調整されます。
- エッジの重み - エッジのタイプ、強度、信頼度などに応じて重みを調整します。
- スコアの正規化 - 相対的なランキングを維持するために、調整されたスコアを正規化します。
- 結果の並べ替え - 調整されたコラボレーション スコアに基づいて、最初の結果が並べ替えられました。
- ユーザー コンテキスト - ユーザー プロファイル、履歴、および設定に基づいてさらに調整されます。
写真
継続的な改善を構築する高性能の検索拡張生成 (RAG) システムでは、データ フライホイールの実装が必要になる場合があります。ナレッジ グラフは、構造化された世界の知識を提供することで、言語モデルの新しい推論機能を解き放ちます。ただし、高品質のマップを構築することは依然として困難です。ここでデータ フライホイールが登場し、システムの相互作用を分析することでナレッジ グラフを継続的に改善します。
すべてのシステム クエリ、応答、スコア、ユーザー アクション、その他のデータを記録し、ナレッジ グラフの使用方法を可視化し、データ集約を使用して悪い応答を明らかにし、これらの応答をクラスター化して分析します、知識のギャップを示すパターンを特定します。問題のあるシステム応答を手動で確認し、マップ内の欠落または不正確な事実に問題を追跡します。次に、グラフを直接変更して、欠落している事実データを追加し、構造を改善し、明確さを高めます。上記のステップは連続ループで完了し、各反復でナレッジ グラフがさらに強化されます。
ニュースやソーシャル メディアなどのストリーミング リアルタイム データ ソースは、ナレッジ グラフを最新の状態に保つために新しい情報を継続的に提供します。クエリ生成を使用して重大な知識のギャップを特定し、埋めることは、ストリーミングが提供する範囲を超えています。グラフの穴を見つけて質問し、欠落している事実を検索して追加します。サイクルごとに、ナレッジ グラフは使用パターンの分析とデータの問題の修正によって徐々に強化され、改善されたグラフによってシステムのパフォーマンスが向上します。
このフライホイール プロセスにより、実際の使用からのフィードバックに基づいてナレッジ グラフと言語モデルを共進化させることができます。マップはモデルのニーズに合わせて積極的に変更されます。
つまり、データ フライホイールは、システムの相互作用を分析することにより、ナレッジ グラフを継続的かつ自動的に改善するための足場を提供します。これにより、グラフ依存言語モデルの精度、関連性、適応性が強化されます。
6. 概要
人工知能は外部の知識と推論を組み合わせる必要があり、そこでナレッジ グラフが登場します。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現し、世界とそれらの間のつながりに関する事実をコード化します。これにより、相互に関連する事実をたどることにより、複雑な論理的推論が複数のステップにまたがることが可能になります。
ただし、ナレッジ グラフには、スパース性や不確実性の欠如などの独自の制限があります。ここで、グラフの埋め込みが役立ちます。 。ナレッジ グラフ要素をベクトル空間でエンコードすることにより、埋め込みにより、大規模なコーパスから潜在パターンの表現までの統計的学習が可能になり、効率的な類似性に基づく操作も可能になります。
ナレッジ グラフもベクトル埋め込みも、それ自体では人間のような言語知能を形成するには十分ではありませんが、これらを組み合わせることで、構造化された知識表現、論理的推論、統計的学習の効果的な組み合わせが提供されます。グラフは、ニューラル ネットワークのパターン認識機能を超えた記号ロジックと関係をカバーしており、グラフ ニューラル ネットワークのようなテクノロジーは、情報転送グラフの構造と埋め込みを通じてこれらの方法をさらに統合します。この共生関係により、システムは統計学習と記号ロジックの両方を利用でき、ニューラル ネットワークと構造化された知識表現の利点を組み合わせることになります。
高品質のナレッジ グラフの構築、ベンチマーク テスト、ノイズ処理などにはまだ課題があります。ただし、シンボリック ネットワークとニューラル ネットワークにわたるハイブリッド テクノロジは依然として有望です。ナレッジ グラフと言語モデルが発展し続けるにつれて、それらの統合により説明可能な AI の新しい領域が開かれることになります。
以上がナレッジ グラフ: 大規模モデルの理想的なパートナーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undress AI Tool
脱衣画像を無料で

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Stock Market GPT
AIを活用した投資調査により賢明な意思決定を実現

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

どんな時でも集中力は美徳です。著者 | 編集者 Tang Yitao | 人工知能の復活により、ハードウェア革新の新たな波が起きています。最も人気のある AIPin は前例のない否定的なレビューに遭遇しました。マーケス・ブラウンリー氏(MKBHD)はこれを、これまでレビューした中で最悪の製品だと評したが、ザ・ヴァージの編集者デイビッド・ピアース氏は、誰にもこのデバイスの購入を勧めないと述べた。競合製品である RabbitR1 はそれほど優れていません。この AI デバイスに関する最大の疑問は、これが明らかに単なるアプリであるのに、Rabbit は 200 ドルのハードウェアを構築したということです。多くの人がAIハードウェアのイノベーションをスマートフォン時代を打破するチャンスと捉え、スマートフォン時代に全力を注ぐ。

編集者 | ScienceAI 1年前、GoogleのTransformer論文の最後の著者であるLlion Jones氏は起業するために退職し、元Google研究者のDavid Ha氏と人工知能会社SakanaAIを共同設立した。 SakanaAI は、自然からインスピレーションを得たインテリジェンスに基づいて新しい基本モデルを作成すると主張しています。さて、SakanaAIは解答用紙を提出しました。 SakanaAI は、自動化された科学研究とオープンディスカバリのための世界初の AI システムである AIScientist のリリースを発表します。 AIScientist は、着想、コードの作成、実験の実行、結果の要約から、論文全体の執筆、査読の実施まで、AI 主導の科学研究と加速を可能にします。

最近、Xiaomi が待望の HyperOS 2.0 バージョンを 10 月に発売するというニュースが流れました。 1.HyperOS2.0はXiaomi 15スマートフォンと同時にリリースされる予定です。 HyperOS 2.0 は、特に写真やビデオの編集における AI 機能を大幅に強化します。 HyperOS2.0 は、よりモダンで洗練されたユーザー インターフェイス (UI) をもたらし、よりスムーズでクリアで美しい視覚効果を提供します。 HyperOS 2.0 アップデートには、マルチタスク機能の強化、通知管理の改善、ホーム画面のカスタマイズ オプションの追加など、多数のユーザー インターフェイスの改善も含まれています。 HyperOS 2.0 のリリースは、Xiaomi の技術力の実証であるだけでなく、スマートフォン オペレーティング システムの将来に対するビジョンでもあります。

C言語データ構造:人工知能の分野における人工知能におけるデータ構造の重要な役割の概要、データ構造は、大量のデータを処理するために重要です。データ構造は、データを整理および管理し、アルゴリズムを最適化し、プログラムの効率を改善するための効果的な方法を提供します。一般的に使用されるC言語で一般的に使用されるデータ構造には、次のものが含まれます。配列:同じタイプの連続して保存されたデータ項目のセット。構造:さまざまな種類のデータを一緒に整理し、名前を付けるデータ型。リンクリスト:データ項目がポインターによって接続される線形データ構造。スタック:最後のファーストアウト(LIFO)原理に続くデータ構造。キュー:ファーストインファーストアウト(FIFO)原則に続くデータ構造。実用的なケース:グラフ理論の隣接するテーブルは人工知能です

このウェブサイトの8月15日のニュースによると、昨日スタンフォード大学で元Google CEO兼会長のエリック・シュミット氏が行った講演が大きな論争を巻き起こした。 Googleの従業員は「勝利よりも在宅勤務が重要だ」と信じていると発言して物議を醸したほか、今後の人工知能の発展について語る際、AIスタートアップはまずAIツールを通じて知的財産(IP)を盗むことができると公然と述べた。その後、弁護士を雇って法的紛争を処理します。シュミット氏は、TikTok禁止の影響について語り、ショートビデオプラットフォームTikTokを例に挙げ、TikTokが禁止されれば、誰でもAIを使って同様のアプリケーションを生成し、すべてのユーザー、すべての音楽、その他のコンテンツを直接盗むことができると主張している(MakemeacopyofTikTok)。 、盗む

1. 第 32 回 ACM International Conference on Multimedia (ACM MM) において、NetEase Fuxi の最新研究成果「Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method」が採択されました。この論文の研究方向には、視覚言語事前トレーニング (VLP)、クロスモーダル画像およびテキスト検索 (CMITR)、およびその他の分野が含まれます。この選択は、NetEase Fuxi Lab のマルチモーダル機能をマークします。

AIは、音楽作成の分野でその強みを示すことができます。 1)AIは、機械学習と深い学習を通じて音楽を生成し、多様性と革新を強化します。 2)AIの作曲家は、作曲家を支援し、インスピレーションと創造性を提供できます。 3)実際のアプリケーションでは、音楽の生成における一貫性と革新の問題を解決するために、パフォーマンスを最適化する必要があります。

編集者 | ScienceAI 著者 | YuTian チーム 人工知能 (AI)、特に医療 AI の分野では、公正な医療結果を確保するために公平性の問題に対処することが重要です。最近、公平性を高めるための取り組みとして、新しい手法やデータセットが導入されています。しかし、クリニックでは患者の診断にさまざまな画像技術(たとえば、さまざまな網膜画像モダリティ)を使用することが多いにもかかわらず、公平性の問題はドメイン転送の文脈ではほとんど検討されていません。この論文は、ドメイン転送下でのアルゴリズムの公平性に関する最初の体系的な研究である FairDomain を提案します。我々は、医療画像のセグメンテーションおよび分類タスクのための最先端のドメイン適応 (DA) およびドメイン一般化 (DG) アルゴリズムをテストし、理解することを目的としています。バイアスが異なるドメイン間でどのように伝達されるか。
