Jia Qianghuai: アリの大規模知識グラフの構築と応用-AI-php.cn

Jia Qianghuai: アリの大規模知識グラフの構築と応用

#1. グラフの概要

最初に、ナレッジグラフの基本概念をいくつか紹介します。

1. ナレッジグラフとは何ですか?

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジグラフは、グラフ構造を使用してモデル化、識別、推論することを目的としています。複雑な関係と蓄積されたドメイン知識は、認知知能を実現するための重要な基礎であり、検索エンジン、インテリジェントな質問応答、言語意味理解、ビッグデータ意思決定分析などの多くの分野で広く使用されています。

ナレッジグラフは、データ間の意味的関係と構造的関係の両方をモデル化し、深層学習テクノロジと組み合わせることで、2 つの関係をより適切に統合して表現できます。

2. ナレッジグラフを構築する理由

Jia Qianghuai: アリの大規模知識グラフの構築と応用

主に次の 2 つの点からナレッジグラフを構築したいと考えています: それは一方ではアリ自身のデータソースの背景特性であり、他方ではナレッジグラフがもたらすことができる利点です。

[1] データソース自体は多様かつ異質であり、統一された知識理解システムが不足しています。

[2] ナレッジグラフは次のような多くの利点をもたらします。

セマンティック標準化: グラフ構築の使用テクノロジーの向上エンティティ、関係、概念などの標準化と正規化のレベル。
#ドメイン知識の蓄積: セマンティクスとグラフ構造に基づいた知識表現と相互接続を実現し、それによって豊富なドメイン知識を蓄積します。
ナレッジの再利用: 高品質の Ant ナレッジグラフを構築し、統合、リンク、その他のサービスを通じて複数のダウンストリームサービスを提供することで、ビジネスコストを削減し、効率を向上します。
#3. ナレッジグラフの構築方法の概要

Jia Qianghuai: アリの大規模知識グラフの構築と応用さまざまなビジネスナレッジを構築する過程でグラフでは、アリナレッジグラフの一般的な構築パラダイムのセットを作成しました。これらは主に次の 5 つの部分に分かれています:

重要な部分としてビジネスデータから始まります。グラフデータソースのコールドスタート。

他のドメインのナレッジグラフは、エンティティアライメントテクノロジによって既存のグラフと統合されます。
ビジネスドメインの構造化ナレッジベースと既存のナレッジグラフの統合も、エンティティアライメントテクノロジによって実現されます。
テキストなどの非構造化データおよび半構造化データは、エンティティリンクテクノロジを通じて情報を抽出し、既存のマップを更新するために使用されます。
ドメイン概念システムとエキスパートルールの統合により、関連する概念とルールが既存のナレッジグラフにリンクされます。

#共通の構築パラダイムを確立したら、体系的な構築を実行する必要があります。 Ant Knowledge Graph の体系的な構築を 2 つの観点から見てみましょう。まず、アルゴリズムの観点から見ると、知識推論、知識照合などのさまざまなアルゴリズム機能があります。実装の観点から見ると、下から上に、最も低い基本依存関係にはグラフコンピューティングエンジンとコグニティブベースコンピューティングが含まれ、その上には NLP およびマルチモーダルプラットフォームとグラフプラットフォームを含むグラフベースがあり、その上にはさまざまなグラフ構築テクノロジがあり、これに基づいて、アリのナレッジグラフを構築できます。ナレッジグラフに基づいて、いくつかのグラフ推論を実行できます。さらに、いくつかの一般的なアルゴリズム機能を提供し、最上位にビジネスアプリケーションがあります。 Jia Qianghuai: アリの大規模知識グラフの構築と応用

2. グラフの構築

次に、グラフの構築、グラフの融合、グラフの認識など、ナレッジグラフの構築における Ant Group のコア機能の一部を共有します。

1. グラフの構築

Jia Qianghuai: アリの大規模知識グラフの構築と応用

グラフ構築プロセスには主に 6 つのステップが含まれます:

データ多変量データを取得するためのソース。
ナレッジモデリングは、大量のデータを構造化データに変換し、概念、エンティティ、イベントの 3 つのドメインからモデル化します。
知識の獲得と知識処理の研究開発プラットフォームの構築。
Ha3 ストレージやグラフストレージなどのナレッジストレージ。
ナレッジ編集、オンラインクエリ、抽出などを含むナレッジ操作。
継続学習により、モデルは自動的かつ反復的に学習できます。

#建設プロセスにおける 3 つの経験とスキル

専門知識を統合したエンティティ分類

Jia Qianghuai: アリの大規模知識グラフの構築と応用

# #Inナレッジグラフを構築するには、入力エンティティを分類する必要がありますが、アリのシナリオでは、これは大規模なマルチラベル分類タスクになります。エンティティ分類のための専門知識を統合するために、主に次の 3 つの最適化が行われます。

Jia Qianghuai: アリの大規模知識グラフの構築と応用

#エンティティ認識に基づいて、単語からエッジまで開始グラフ構造に基づいて、モデルは接続されたエッジの適切な重み付けを学習し、ノイズの多い単語の接続されたエッジの重みを軽減します。境界コントラスト学習とセマンティックコントラスト学習の 2 つのモジュールが提案されています。

境界コントラスト学習は、境界競合問題を解決するために使用されます。語彙が注入された後、全結合グラフが構築され、GAT を使用して各トークンの表現が学習されます。境界分類の正しい部分は正の例のグラフを構築し、不正確な部分は負の例のグラフを構築します。比較を通じて、モデルは各トークンを学習しますトークンの境界情報。
#セマンティック対照学習は、セマンティック競合の問題を解決するために使用されます。プロトタイプ学習のアイデアに基づいて、ラベルの意味表現が追加され、各トークンとラベルの意味の関連付けが強化されます。 #論理ルールに制約された小規模なサンプル関係抽出

Jia Qianghuai: アリの大規模知識グラフの構築と応用アノテーションサンプルは、ドメインの問題に関して非常に大規模ですこれより少ない場合は、数ショットまたはゼロショットのシナリオに直面します。この場合、関係抽出の中心となるアイデアは、外部ナレッジベースを導入することです。原因となるパフォーマンス低下の問題を解決するために、異なる意味空間により、論理規則に基づく推論モジュールを設計し、エンティティタイプのマッチングによって引き起こされる暗記学習の問題を解決するために、微妙な差異認識モジュールを設計します。

2. グラフフュージョン

グラフフュージョンとは、異なるビジネス分野のグラフ間の情報を融合することを指します。

グラフフュージョンの利点: Jia Qianghuai: アリの大規模知識グラフの構築と応用

グラフフュージョンにおけるエンティティの配置

ナレッジグラフ融合プロセスの中核となる技術ポイントはエンティティのアライメントです。ここでは SOTA アルゴリズム BERT-INT を使用します。これには主に 2 つのモジュールが含まれています。1 つはプレゼンテーションモジュール、もう 1 つはインタラクションモジュールです。

アルゴリズムの実装プロセスには主にリコールとソートが含まれます:

リコール: プレゼンテーションモジュールでは、タイトルテキストは BERT ベクトル類似性リコールを使用します。

タイトル属性の近傍に基づくモデルの並べ替え: ü 表現モジュールを使用して、タイトル、属性、および近傍のベクトル表現を完成させます:

タイトルの cos 類似度を計算します。
2 つのエンティティの属性と近傍セット間の類似度行列をそれぞれ計算し、1 次元の類似度特徴を抽出します。
# 3 つの特徴を特徴ベクトルに結合して、損失を計算します。

#3. グラフ認知

Jia Qianghuai: アリの大規模知識グラフの構築と応用

このパートでは主にアリフレームの内部知識表現学習を紹介します。

Ant は、Encoder-Decoder フレームワークに基づいた知識表現学習を提案しました。このうち、Encoder はグラフニューラル学習手法であり、Decoder はリンク予測などの知識表現学習です。この表現学習フレームワークは、普遍的なエンティティ/関係エンベディングの生成を自己監視でき、これにはいくつかの利点があります: 1) エンベディングサイズが元の特徴空間よりもはるかに小さいため、ストレージコストが削減されます; 2) 低次元ベクトルが高密度になり、効果的に緩和されます。データの疎性の問題; 3) 同じベクトル空間での学習により、複数のソースからの異種データの融合がより自然になります; 4) 埋め込みには一定の普遍性があり、下流のビジネス用途に便利です。

3. グラフの適用

次に、Ant Group におけるナレッジグラフの典型的な適用事例をいくつか紹介します。

1. グラフのシナリオ適用モード

特定のケースを紹介する前に、まず、知識の獲得、ナレッジなど、Ant Knowledge Graph のシナリオ適用のいくつかのモードを紹介します。管理と推論、および知識サービス。以下に示すように。

Jia Qianghuai: アリの大規模知識グラフの構築と応用

#2. いくつかの典型的なケース

ケース 1: ナレッジグラフに基づいた構造化された一致再現

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ビジネスシナリオは、Alipay のメイン検索でミニプログラムのコンテンツをダウンロードすることです。解決すべきビジネスの問題点は次のとおりです:

products エンティティ、および商品と製品間の関係が欠落しています。
#小規模プログラムに対する製品レベルの理解が不十分。

#解決策は、マーチャントナレッジグラフを構築することです。販売者マップの製品関係と組み合わせることで、ユーザーのクエリ製品レベルの構造化された理解が達成されます。

ケース 2: レコメンデーションシステムにおけるユーザーの意図のリアルタイム予測

Jia Qianghuai: アリの大規模知識グラフの構築と応用

このケースは、ユーザーのリアルタイム予測を目的としています。ホームページの推奨を目的として、AlipayKG が構築され、そのフレームワークは上の図に示されています。関連研究は、トップカンファレンス www 2023 にも掲載されました。さらに理解するには、この論文を参照してください。

#ケース 3: 知識表現を統合したマーケティングクーポンの推奨

Jia Qianghuai: アリの大規模知識グラフの構築と応用

#このシナリオは、消費者向けクーポンの推奨とビジネスのシナリオです。問題点は次のとおりです:

#頭部への影響は深刻です。
# ユーザーの検証と収集の動作はまばらです。
#コールドスタートユーザーとクーポンは多数ありますが、対応するフットプリントデータが不足しています。

#上記の問題を解決するために、動的グラフ表現を統合するディープベクトルリコールアルゴリズムを設計しました。ユーザー消費クーポンの動作は周期的であることが判明したため、静的な単一エッジではこの周期的動作をモデル化できません。この目的のために、最初に動的グラフを構築し、次にチームが独自に開発した動的グラフアルゴリズムを使用して埋め込み表現を学習し、表現を取得した後、それをベクトル再現のためにツインタワーモデルに組み込みました。

ケース 4: 診断および治療イベントに基づくインテリジェントクレームエキスパートルール推論

Jia Qianghuai: アリの大規模知識グラフの構築と応用

最後のケースは、グラフルール推論に関するものです。医療保険の健康マップを例にとると、これには医学的知識、請求ルール、および「個人」の健康情報が含まれており、これらはエンティティに関連付けられ、意思決定の基礎として論理的なルールと結合されています。マップを通じて、専門家による請求解決の効率が向上しました。

4. グラフと大規模モデル

最後に、現在急速に開発されている大規模モデルの文脈におけるナレッジグラフの機会について簡単に説明します。

1. ナレッジグラフと大規模モデルの関係

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジグラフと大規模モデルには、それぞれ長所と短所があります。大規模モデルの主な利点は、一般知識のモデリングと汎用性の利点があり、大規模モデルの欠点はナレッジグラフの利点によって補うことができます。地図の利点としては、高精度と強力な解釈可能性が挙げられます。大規模なモデルとナレッジグラフは相互に影響を与える可能性があります。

グラフと大規模なモデルを統合するには、通常 3 つの方法があります。1 つはナレッジグラフを使用して大規模なモデルを強化すること、2 つ目は大規模なモデルを使用してナレッジグラフを強化することです。 3 番目は、ナレッジグラフを使用して大規模なモデルを強化することです。大規模なモデルとナレッジグラフは連携して相互に補完します。大規模なモデルはパラメータ化された知識ベースと考えることができ、ナレッジグラフは表示された知識ベースと考えることができます。 #2. 大規模モデルとナレッジグラフの適用事例

大規模モデルのナレッジグラフ構築への適用

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジグラフ構築のプロセスでは、大規模なモデルを情報抽出、知識モデリング、関係推論に使用できます。

大規模モデルを使用してナレッジグラフからの情報抽出に適用する方法

Jia Qianghuai: アリの大規模知識グラフの構築と応用

DAMO アカデミーのこの取り組みは、情報抽出の問題を分解します。これは 2 つの段階になります:

最初の段階では、テキスト内に存在するエンティティ、関係、またはイベントタイプを検索して、検索スペースを削減し、計算の複雑さ。
#第 2 段階では、以前に抽出したタイプと指定された対応するリストに基づいて、関連情報をさらに抽出します。 #ナレッジグラフを大規模モデルに適用する

##ナレッジグラフを大規模モデルに適用するには、主に 3 つの側面が含まれます。 : Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジグラフを大規模モデル入力に統合します。ナレッジグラフをデータクリーニングに使用したり、ナレッジグラフを使用して正式なスプライシングを直接実行したりできます。

ナレッジグラフを大規模なモデルのトレーニングに統合します。たとえば、2 つのタスクを同時にトレーニングします。ナレッジグラフは知識表現タスクに使用でき、大規模モデルは MLM の事前トレーニングに使用でき、この 2 つは共同でモデル化されます。

ナレッジグラフを大規模なモデル推論に挿入します。まず、大規模モデルに関する 2 つの問題を解決できます。1 つは、大規模モデルの「無意味」を回避するためのアプリオリ制約としてナレッジグラフを使用することです。2 つ目は、大規模モデルの適時性の問題を解決することです。一方、ナレッジグラフに基づいて、大規模なモデル生成に対して解釈可能なソリューションを提供できます。

ナレッジ強化型質疑応答システム

Jia Qianghuai: アリの大規模知識グラフの構築と応用

主に 2 つのカテゴリがあり、1 つは大規模なモデルを使用するナレッジグラフ強化型質疑応答システムです。 KBQA モデルを最適化すること、もう 1 つは、LangChain、GopherCite、New Bing などが大規模なモデルを使用してナレッジベースの質問と回答を行う方法と同様の、情報検索の強化です。

知識強化型生成検索 Q&A システムには、次の利点があります。