ホームページ > テクノロジー周辺機器 > AI > 構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

王林
リリース: 2023-04-13 13:43:03
転載
1283 人が閲覧しました

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

ペーパーアドレス: https://arxiv.org/abs/2205.15508

コードアドレス: https://github. com/squareRoot3/Re Thinking-Anomaly-Detection

構造化グラフ データの異常検出: 背景と課題

異常検出は、データ マイニングの古典的なタスクの 1 つです。異常なデータを分析することは、企業やユーザーがその背後にある形成メカニズムを理解し、対応する意思決定を行い、損失を回避するのに役立ちます。インターネットの発展に伴い、構造化データの異常検出、すなわちグラフ異常検出がますます注目を集めています。

グラフの異常検出は、具体的には、他のほとんどのオブジェクトとは異なる分布パターンを持つ、グラフ上の少数のオブジェクト (ノード、エッジ、サブグラフなど) を検出することと定義できます。 この記事では、グラフ上の異常なノードの検出タスクに焦点を当てます。従来の異常検出方法と比較して、グラフ異常検出では、さまざまなエンティティ間の関連情報を利用して、ネットワーク セキュリティ、詐欺検出、荒らし検出、財務リスク管理、障害監視などの実際のシナリオによりよく対応できます。

次の図は、従来の異常検出タスクとグラフ指向の異常検出タスクの違いを視覚的に比較しています。

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

#図 1: 従来の異常検出タスクとグラフ指向の異常検出タスクの比較。

近年、グラフ ニューラル ネットワークは、構造化データを分析および処理するための強力なツールとなっています。グラフ ニューラル ネットワークは、ノード自身の特性と近傍情報を含む埋め込み表現を学習して、分類、再構成、回帰などの下流タスクをより適切に完了します。

ただし、一般的なグラフ ニューラル ネットワーク (畳み込みネットワークなど) は主に通常のデータ用に設計されており、異常検出タスク、つまり異常なノードで「過度の平滑化」問題が発生する傾向があります。正常なノードの発現は区別することが難しく、異常検出の精度に影響を与えます。例えば、金融詐欺検知の実際の応用では、通常、異常なアカウントは、疑わしさを軽減するために複数の正常なアカウントと通常の取引を行うことで偽装し、その後、不正な取引を実行します。この「関係不正」により、グラフの異常検出はさらに困難になります。

上記の問題を解決するために、研究者らは、(1) アテンション メカニズムを使用して複数のビューから近傍情報を集約する、(2) などの異常検出タスク用に特別に グラフ ニューラル ネットワーク モデル を提案しました。 ) ) リサンプリング手法を使用して、さまざまなカテゴリの近傍情報を集約します (3) グラフ ニューラル ネットワークのトレーニングなどを支援する追加の損失関数を設計します。これらの方法は主に、空間領域の観点から異常を処理するグラフ ニューラル ネットワークを設計しますが、この問題をスペクトル領域の観点から考慮した人は誰もいませんでした。

異なるスペクトル フィルターを選択すると、グラフ ニューラル ネットワークの表現力に影響があり、パフォーマンスに違いが生じることがわかりました。

新しいアプローチ: スペクトル領域の観点から見たグラフ異常検出

既存の研究のギャップを埋めるために、この記事では次のような質問に答えたいと考えています: スペクトル フィルターを調整する方法グラフニューラルネットワーク?異常検出?

この記事では、スペクトル ドメインの観点からグラフ上の異常データを初めて分析することを試みています。異常なデータによりスペクトル エネルギーが「右にシフト」することが観察されます。つまり、エネルギーは低周波にはあまり集中せず、高周波により集中します。

この右シフト現象を視覚化するために、研究者らはまず、500 個のノードを持つ Barabasi-Albert グラフ (BA グラフ) をランダムに生成し、グラフ上の正常なノードと異常なノードの属性がそれぞれ次の 2 つに従うと仮定しました。外れ値ノードの分散がより大きい、別のガウス分布。

図の上部は、BA 管理図上のさまざまな程度の異常を含むデータの分布を示し、下部は対応するスペクトル エネルギー分布を示します。このうち、ヒストグラムは対応するスペクトル区間のエネルギー割合を表し、折れ線グラフはゼロからその点までの周波数領域エネルギーの累積割合を表します。

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

#図 2: スペクトル エネルギーの「右シフト」現象の視覚化。

上図からわかるように、異常データの割合が0%の場合、エネルギーの大部分は低周波部分(λ

実際のシナリオでは、異常なデータは通常、より複雑な分布に従います。研究者らは、4 つの大規模なグラフ異常検出データセットについても、「右シフト」現象の存在を確認しました。下図に設定したAmazon異常ユーザー検知データは一例で、データ内の異常ノードの一部を削除すると、スペクトル上の低周波エネルギーが大幅に増加し、それに伴って高周波エネルギーが減少します。同じ数のランダムなノードを削除した場合、スペクトルのエネルギー分布はほとんど変化しません。これは、異常なデータがスペクトル エネルギーの「右シフト」の鍵であることをさらに証明します。

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

図 3: Amazon 異常ユーザー検出データセットのスペクトルエネルギー分布に対するさまざまなノードの削除の影響: 元の画像 (The Original)、削除ランダム ノード (Drop -Random)、異常なノードの削除 (Drop-Anomaly)

グラフ異常検出のための新しいツール: ベータ ウェーブレット グラフ ニューラル ネットワーク

前のセクションの分析は次のとおりです。グラフの異常を検出するときは、「右シフト」効果に注意する必要があります。たとえば、上記の Amazon データセットでは、固有値 λ=1 付近のスペクトル情報が異常データと密接に関連しています。異常な情報をより適切に捕捉するために、グラフ ニューラル ネットワークは、λ=1 付近の信号のみを保持し、残りの信号をフィルタリングするバンドパス フィルターの特性を持つ必要があります。

残念ながら、既存のグラフ ニューラル ネットワークのほとんどはローパス フィルターまたは適応フィルターであり、帯域通過特性を保証できません。適応フィルターはあらゆる機能に適合する機能を備えていますが、異常検出ではローパス フィルターに縮退する可能性もあります。これは、データセット全体において、異常データに対応する高周波情報が占める割合は小さく、スペクトルエネルギーの大部分は依然として低周波に集中しているためです。

異常なデータによって引き起こされる「右シフト」をより適切に処理するために、研究者はグラフ異常検出の新しい方法である ベータ ウェーブレット グラフ ニューラル ネットワーク (BWGNN) を提案しました。ハモンドのグラフ ウェーブレット理論を利用することで、グラフ ニューラル ネットワークのスペクトル フィルターとしてベータ関数に基づく新しいウェーブレット カーネルを設計しました。

一般的に使用されるヒート カーネル関数と比較して、ウェーブレット カーネルとしてのベータ関数は、バンドパス フィルターの要件を満たすだけでなく、周波数領域の局所性と空間領域の局所性も優れています。以下の図は、サーモカーネル ウェーブレットとベータ カーネル ウェーブレットの違いを比較しています。

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

図 4: スペクトル領域 (左) と空間領域 (右) における熱カーネル ウェーブレットとベータ カーネル ウェーブレットの比較。ベータ関数の帯域が優れています。一般およびローカルのプロパティ。

この記事 では、4 つの大規模なグラフ異常検出データ セット で BWGNN のパフォーマンスを検証しました。その中で、Yelp データセットは点評 Web サイト上の異常なコメントの検出に使用され、Amazon データセットは電子商取引プラットフォーム上の異常なユーザーの検出に使用され、T-Finance データセットは取引ネットワーク上の異常なユーザーの検出に使用されます。 T-Social データ セットは、最大 500 万のノードと 7,000 万のエッジを含むソーシャル ネットワーク上の異常なユーザーを検出するために使用されます。

以下の表からわかるように、従来の分類モデル、一般的なグラフ ニューラル ネットワーク、および特殊なグラフ異常検出モデルと比較して、BWGNN は 2 つのシナリオで実行されます: 40% のトレーニング データと 1% のトレーニング データ (半監督あり)より良い結果を達成します。動作効率の点では、BWGNN はほとんどの一般的なグラフ ニューラル ネットワークの消費時間に近く、他のグラフ異常検出モデルよりも効率的です。

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?

要約

この記事では、研究者らは、グラフ上に異常なノードが出現すると、次のような問題が発生することを発見しました。スペクトル エネルギーを「右にシフト」」。これは、構造化データの異常検出に新しい視点を提供します。この発見に基づいて、この論文では、グラフ異常検出のための新しいツールであるベータ ウェーブレット グラフ ニューラル ネットワーク (BWGNN) を提案します。特別に設計されたバンドパス フィルターを介して「右シフト」によって生成された高周波異常情報を捕捉し、複数のデータ セットで最適な結果を実現します。

実際の実装では、グラフの異常検出は通常複雑なシステム エンジニアリングですが、適切なグラフ ニューラル ネットワークの選択はシステムのパフォーマンスに影響を与える重要な要素です。研究者らによって提案された BWGNN は、合理化された設計、低複雑性、置き換えが容易なグラフ ニューラル ネットワークの新しい選択肢です。

以上が構造化データに基づく異常検出の再考: どのような種類のグラフ ニューラル ネットワークが必要ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート