構造化データに基づく異常検出の再考: どのような種類のグラフニューラルネットワークが必要ですか?-AI-php.cn

構造化データに基づく異常検出の再考: どのような種類のグラフニューラルネットワークが必要ですか?

ペーパーアドレス: https://arxiv.org/abs/2205.15508

コードアドレス: https://github. com/squareRoot3/Re Thinking-Anomaly-Detection

構造化グラフデータの異常検出: 背景と課題

異常検出は、データマイニングの古典的なタスクの 1 つです。異常なデータを分析することは、企業やユーザーがその背後にある形成メカニズムを理解し、対応する意思決定を行い、損失を回避するのに役立ちます。インターネットの発展に伴い、構造化データの異常検出、すなわちグラフ異常検出がますます注目を集めています。

グラフの異常検出は、具体的には、他のほとんどのオブジェクトとは異なる分布パターンを持つ、グラフ上の少数のオブジェクト (ノード、エッジ、サブグラフなど) を検出することと定義できます。 この記事では、グラフ上の異常なノードの検出タスクに焦点を当てます。従来の異常検出方法と比較して、グラフ異常検出では、さまざまなエンティティ間の関連情報を利用して、ネットワークセキュリティ、詐欺検出、荒らし検出、財務リスク管理、障害監視などの実際のシナリオによりよく対応できます。

次の図は、従来の異常検出タスクとグラフ指向の異常検出タスクの違いを視覚的に比較しています。

構造化データに基づく異常検出の再考: どのような種類のグラフニューラルネットワークが必要ですか?

#図 1: 従来の異常検出タスクとグラフ指向の異常検出タスクの比較。

近年、グラフニューラルネットワークは、構造化データを分析および処理するための強力なツールとなっています。グラフニューラルネットワークは、ノード自身の特性と近傍情報を含む埋め込み表現を学習して、分類、再構成、回帰などの下流タスクをより適切に完了します。

ただし、一般的なグラフニューラルネットワーク (畳み込みネットワークなど) は主に通常のデータ用に設計されており、異常検出タスク、つまり異常なノードで「過度の平滑化」問題が発生する傾向があります。正常なノードの発現は区別することが難しく、異常検出の精度に影響を与えます。例えば、金融詐欺検知の実際の応用では、通常、異常なアカウントは、疑わしさを軽減するために複数の正常なアカウントと通常の取引を行うことで偽装し、その後、不正な取引を実行します。この「関係不正」により、グラフの異常検出はさらに困難になります。

上記の問題を解決するために、研究者らは、(1) アテンションメカニズムを使用して複数のビューから近傍情報を集約する、(2) などの異常検出タスク用に特別に グラフニューラルネットワークモデル を提案しました。 ) ) リサンプリング手法を使用して、さまざまなカテゴリの近傍情報を集約します (3) グラフニューラルネットワークのトレーニングなどを支援する追加の損失関数を設計します。これらの方法は主に、空間領域の観点から異常を処理するグラフニューラルネットワークを設計しますが、この問題をスペクトル領域の観点から考慮した人は誰もいませんでした。

異なるスペクトルフィルターを選択すると、グラフニューラルネットワークの表現力に影響があり、パフォーマンスに違いが生じることがわかりました。

新しいアプローチ: スペクトル領域の観点から見たグラフ異常検出

既存の研究のギャップを埋めるために、この記事では次のような質問に答えたいと考えています: スペクトルフィルターを調整する方法グラフニューラルネットワーク?異常検出?

この記事では、スペクトルドメインの観点からグラフ上の異常データを初めて分析することを試みています。異常なデータによりスペクトルエネルギーが「右にシフト」することが観察されます。つまり、エネルギーは低周波にはあまり集中せず、高周波により集中します。

この右シフト現象を視覚化するために、研究者らはまず、500 個のノードを持つ Barabasi-Albert グラフ (BA グラフ) をランダムに生成し、グラフ上の正常なノードと異常なノードの属性がそれぞれ次の 2 つに従うと仮定しました。外れ値ノードの分散がより大きい、別のガウス分布。

図の上部は、BA 管理図上のさまざまな程度の異常を含むデータの分布を示し、下部は対応するスペクトルエネルギー分布を示します。このうち、ヒストグラムは対応するスペクトル区間のエネルギー割合を表し、折れ線グラフはゼロからその点までの周波数領域エネルギーの累積割合を表します。

構造化データに基づく異常検出の再考: どのような種類のグラフニューラルネットワークが必要ですか?

#図 2: スペクトルエネルギーの「右シフト」現象の視覚化。

上図からわかるように、異常データの割合が0%の場合、エネルギーの大部分は低周波部分(λ

実際のシナリオでは、異常なデータは通常、より複雑な分布に従います。研究者らは、4 つの大規模なグラフ異常検出データセットについても、「右シフト」現象の存在を確認しました。下図に設定したAmazon異常ユーザー検知データは一例で、データ内の異常ノードの一部を削除すると、スペクトル上の低周波エネルギーが大幅に増加し、それに伴って高周波エネルギーが減少します。同じ数のランダムなノードを削除した場合、スペクトルのエネルギー分布はほとんど変化しません。これは、異常なデータがスペクトルエネルギーの「右シフト」の鍵であることをさらに証明します。

構造化データに基づく異常検出の再考: どのような種類のグラフニューラルネットワークが必要ですか?

図 3: Amazon 異常ユーザー検出データセットのスペクトルエネルギー分布に対するさまざまなノードの削除の影響: 元の画像 (The Original)、削除ランダムノード (Drop -Random)、異常なノードの削除 (Drop-Anomaly)

グラフ異常検出のための新しいツール: ベータウェーブレットグラフニューラルネットワーク

前のセクションの分析は次のとおりです。グラフの異常を検出するときは、「右シフト」効果に注意する必要があります。たとえば、上記の Amazon データセットでは、固有値 λ=1 付近のスペクトル情報が異常データと密接に関連しています。異常な情報をより適切に捕捉するために、グラフニューラルネットワークは、λ=1 付近の信号のみを保持し、残りの信号をフィルタリングするバンドパスフィルターの特性を持つ必要があります。

残念ながら、既存のグラフニューラルネットワークのほとんどはローパスフィルターまたは適応フィルターであり、帯域通過特性を保証できません。適応フィルターはあらゆる機能に適合する機能を備えていますが、異常検出ではローパスフィルターに縮退する可能性もあります。これは、データセット全体において、異常データに対応する高周波情報が占める割合は小さく、スペクトルエネルギーの大部分は依然として低周波に集中しているためです。

異常なデータによって引き起こされる「右シフト」をより適切に処理するために、研究者はグラフ異常検出の新しい方法である ベータウェーブレットグラフニューラルネットワーク (BWGNN) を提案しました。ハモンドのグラフウェーブレット理論を利用することで、グラフニューラルネットワークのスペクトルフィルターとしてベータ関数に基づく新しいウェーブレットカーネルを設計しました。

一般的に使用されるヒートカーネル関数と比較して、ウェーブレットカーネルとしてのベータ関数は、バンドパスフィルターの要件を満たすだけでなく、周波数領域の局所性と空間領域の局所性も優れています。以下の図は、サーモカーネルウェーブレットとベータカーネルウェーブレットの違いを比較しています。

構造化データに基づく異常検出の再考: どのような種類のグラフニューラルネットワークが必要ですか?

図 4: スペクトル領域 (左) と空間領域 (右) における熱カーネルウェーブレットとベータカーネルウェーブレットの比較。ベータ関数の帯域が優れています。一般およびローカルのプロパティ。

この記事 では、4 つの大規模なグラフ異常検出データセット で BWGNN のパフォーマンスを検証しました。その中で、Yelp データセットは点評 Web サイト上の異常なコメントの検出に使用され、Amazon データセットは電子商取引プラットフォーム上の異常なユーザーの検出に使用され、T-Finance データセットは取引ネットワーク上の異常なユーザーの検出に使用されます。 T-Social データセットは、最大 500 万のノードと 7,000 万のエッジを含むソーシャルネットワーク上の異常なユーザーを検出するために使用されます。

以下の表からわかるように、従来の分類モデル、一般的なグラフニューラルネットワーク、および特殊なグラフ異常検出モデルと比較して、BWGNN は 2 つのシナリオで実行されます: 40% のトレーニングデータと 1% のトレーニングデータ (半監督あり）より良い結果を達成します。動作効率の点では、BWGNN はほとんどの一般的なグラフニューラルネットワークの消費時間に近く、他のグラフ異常検出モデルよりも効率的です。

構造化データに基づく異常検出の再考: どのような種類のグラフニューラルネットワークが必要ですか?

要約

この記事では、研究者らは、グラフ上に異常なノードが出現すると、次のような問題が発生することを発見しました。スペクトルエネルギーを「右にシフト」」。これは、構造化データの異常検出に新しい視点を提供します。この発見に基づいて、この論文では、グラフ異常検出のための新しいツールであるベータウェーブレットグラフニューラルネットワーク (BWGNN) を提案します。特別に設計されたバンドパスフィルターを介して「右シフト」によって生成された高周波異常情報を捕捉し、複数のデータセットで最適な結果を実現します。

実際の実装では、グラフの異常検出は通常複雑なシステムエンジニアリングですが、適切なグラフニューラルネットワークの選択はシステムのパフォーマンスに影響を与える重要な要素です。研究者らによって提案された BWGNN は、合理化された設計、低複雑性、置き換えが容易なグラフニューラルネットワークの新しい選択肢です。

以上が構造化データに基づく異常検出の再考: どのような種類のグラフニューラルネットワークが必要ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。