Repenser la détection des anomalies basée sur des données structurées : de quel type de réseau neuronal graphique avons-nous besoin ?-IA-php.cn

Repenser la détection des anomalies basée sur des données structurées : de quel type de réseau neuronal graphique avons-nous besoin ?

Adresse papier : https://arxiv.org/abs/2205.15508

Adresse code : https://github.com/squareRoot3/Rethinking-Anomaly-Detection

Anomalie pour les données graphiques structurées Détection : Contexte et défis

La détection d'anomalies est l'une des tâches classiques du data mining. L'analyse de données anormales peut aider les entreprises ou les utilisateurs à comprendre le mécanisme de formation qui les sous-tend, afin de prendre les décisions correspondantes et d'éviter les pertes. Avec le développement d'Internet, la détection d'anomalies pour les données structurées, à savoir la détection d'anomalies graphiques, fait l'objet de plus en plus d'attention.

La détection d'anomalies graphiques peut être spécifiquement définie comme : trouver un petit nombre d'objets sur le graphique (nœuds, arêtes, sous-graphes, etc.), qui ont des modèles de distribution différents de la plupart des autres objets. Cet article se concentre sur la tâche de détection des nœuds anormaux sur le graphique. Par rapport aux méthodes traditionnelles de détection d'anomalies, la détection d'anomalies graphiques peut utiliser les informations associées entre différentes entités pour mieux servir des scénarios réels tels que la sécurité du réseau, la détection des fraudes, la détection des trolls, le contrôle des risques financiers et la surveillance des pannes.

La figure ci-dessous compare visuellement la différence entre les tâches de détection d'anomalies traditionnelles et les tâches de détection d'anomalies orientées graphique.

Repenser la détection des anomalies basée sur des données structurées : de quel type de réseau neuronal graphique avons-nous besoin ?

Figure 1 : Comparaison des tâches de détection d'anomalies traditionnelles et des tâches de détection d'anomalies orientées graphiques.

Ces dernières années, les réseaux de neurones graphiques sont devenus un outil puissant d'analyse et de traitement de données structurées. Les réseaux de neurones graphiques peuvent mieux accomplir les tâches en aval telles que la classification, la reconstruction et la régression en apprenant des représentations intégrées qui contiennent les propres caractéristiques du nœud et les informations sur les voisins.

Cependant, les réseaux de neurones graphiques généraux (tels que les réseaux convolutifs, etc.) sont principalement conçus pour des données normales et sont susceptibles de rencontrer le problème du « sur-lissage » dans les tâches de détection d'anomalies, c'est-à-dire l'expression de nœuds anormaux et nœuds normaux Il est difficile à distinguer, ce qui affecte la précision de la détection des anomalies. Par exemple, dans l'application pratique de la détection de la fraude financière, les comptes anormaux se déguisent généralement en effectuant des transactions normales avec plusieurs comptes normaux afin de réduire leur suspicion, puis en effectuant des transactions illégales. Cette « fraude relationnelle » augmente encore la difficulté de détection des anomalies graphiques.

Afin de résoudre les difficultés ci-dessus, les chercheurs ont spécialement proposé un Modèle de réseau neuronal graphique pour les tâches de détection d'anomalies, notamment (1) l'utilisation du mécanisme d'attention pour agréger les informations de quartier à partir de plusieurs vues (2) l'utilisation de la méthode de rééchantillonnage pour agréger différentes ; catégories Informations de voisinage ; (3) Concevoir des fonctions de perte supplémentaires pour aider à la formation des réseaux de neurones graphiques, etc. Ces méthodes conçoivent principalement des réseaux de neurones graphiques pour gérer les anomalies du point de vue du domaine spatial, mais personne n'a envisagé ce problème du point de vue du domaine spectral.

Il s'avère que le choix de différents filtres spectraux affectera la capacité d'expression du réseau neuronal graphique, provoquant ainsi des différences de performances.

Une nouvelle approche : Détection des anomalies graphiques du point de vue du domaine spectral

Afin de combler le vide dans les recherches existantes, cet article espère répondre à une telle question : Comment adapter un filtre spectral pour les réseaux de neurones graphiques pour la détection d'anomalies ?

Cet article tente pour la première fois d'analyser les données anormales sur le graphique du point de vue du domaine spectral, et observe que : les données anormales entraîneront un "décalage de l'énergie spectrale vers la droite", c'est-à-dire que l'énergie est moins concentré dans les basses fréquences et plus concentré dans les hautes fréquences.

Afin de visualiser ce phénomène de décalage vers la droite, les chercheurs ont d'abord généré de manière aléatoire un graphe de Barabási-Albert (graphe BA) avec 500 nœuds, et ont supposé que les attributs des nœuds normaux et des nœuds anormaux sur le graphique suivent deux distributions gaussiennes différentes. où la variance des nœuds anormaux est plus grande.

La partie supérieure de l'image montre la distribution des données contenant différents degrés d'anomalies sur la carte BA, tandis que la partie inférieure montre la distribution d'énergie spectrale correspondante. Parmi eux, l'histogramme représente la proportion d'énergie de l'intervalle spectral correspondant, et le graphique linéaire représente la proportion cumulée d'énergie du domaine fréquentiel de zéro à ce point.

Repenser la détection des anomalies basée sur des données structurées : de quel type de réseau neuronal graphique avons-nous besoin ?

Figure 2 : Visualisation du phénomène de « décalage à droite » de l'énergie spectrale.

Comme le montre la figure ci-dessus, lorsque la proportion de données anormales est de 0 %, la majeure partie de l'énergie est concentrée dans la partie basse fréquence (λ

Dans des scénarios réels, les données anormales suivent généralement une distribution plus complexe. Sur quatre ensembles de données de détection d’anomalies graphiques à grande échelle, les chercheurs ont également confirmé l’existence du phénomène de « décalage à droite ». L'ensemble de données de détection d'utilisateurs anormaux d'Amazon présenté ci-dessous est un exemple. Après la suppression de certains nœuds anormaux dans les données, l'énergie basse fréquence sur le spectre augmente considérablement, tandis que l'énergie haute fréquence diminue en conséquence. Si le même nombre de nœuds aléatoires est supprimé, la distribution d’énergie du spectre ne change pratiquement pas. Cela vérifie en outre que les données anormales sont la clé du « bon décalage » de l’énergie spectrale.

Repenser la détection des anomalies basée sur des données structurées : de quel type de réseau neuronal graphique avons-nous besoin ?

Figure 3 : L'impact de la suppression de différents nœuds sur la distribution d'énergie du spectre sur l'ensemble de données de détection d'utilisateurs anormaux d'Amazon : image originale (The Original), suppression de nœuds aléatoires (Drop-Random), suppression de nœuds anormaux (Drop -Anomaly)

Un nouvel outil pour la détection des anomalies graphiques : le réseau neuronal des graphiques d'ondelettes bêta

L'analyse de la section précédente montre que nous devons prêter attention à l'effet "décalage à droite" lors de la détection des anomalies graphiques. Par exemple, dans l'ensemble de données Amazon ci-dessus, les informations spectrales proches de la valeur propre λ = 1 sont étroitement liées aux données anormales. Afin de mieux capturer les informations anormales, le réseau neuronal graphique doit avoir les propriétés d'un filtre passe-bande, ne retenant que les signaux proches de λ = 1 tout en filtrant les signaux restants.

Malheureusement, la plupart des réseaux de neurones graphiques existants sont des filtres passe-bas ou des filtres adaptatifs, qui ne peuvent garantir les propriétés passe-bande. Bien que le filtre adaptatif ait la capacité de s’adapter à n’importe quelle fonction, il peut également dégénérer en filtre passe-bas lors de la détection d’anomalies. En effet, dans l’ensemble des données, les informations haute fréquence correspondant aux données anormales représentent une proportion relativement faible, alors que la majeure partie de l’énergie spectrale est encore concentrée dans les basses fréquences.

Afin de mieux gérer le « décalage à droite » provoqué par des données anormales, les chercheurs ont proposé une nouvelle méthode de détection des anomalies graphiques - Beta Wavelet Graph Neural Network (BWGNN). En s'appuyant sur la théorie des ondelettes graphiques de Hammond, ils ont conçu un nouveau noyau d'ondelettes basé sur la fonction Beta comme filtre spectral pour le réseau neuronal graphique.

Par rapport à la fonction de noyau thermique couramment utilisée, la fonction bêta en tant que noyau d'ondelettes répond non seulement aux exigences d'un filtre passe-bande, mais a également une meilleure localité du domaine fréquentiel et une meilleure localité du domaine spatial. La figure ci-dessous compare la différence entre l'ondelette du thermonoyau et l'ondelette du noyau bêta.

Repenser la détection des anomalies basée sur des données structurées : de quel type de réseau neuronal graphique avons-nous besoin ?

Figure 4 : Comparaison de l'ondelette du noyau thermique et de l'ondelette du noyau bêta dans le domaine spectral (à gauche) et le domaine spatial (à droite). La fonction bêta a de meilleures propriétés passe-bande et locales.

Cet article vérifie les performances de BWGNN sur quatre ensembles de données de détection d'anomalies graphiques à grande échelle. Parmi eux, l'ensemble de données Yelp est utilisé pour détecter les commentaires anormaux sur les sites Web de Dianping, l'ensemble de données Amazon est utilisé pour détecter les utilisateurs anormaux sur les plateformes de commerce électronique, l'ensemble de données T-Finance est utilisé pour détecter les utilisateurs anormaux sur les réseaux de transaction, et l'ensemble de données T-Social est utilisé pour détecter les utilisateurs anormaux sur les réseaux sociaux, comprenant jusqu'à cinq millions de nœuds et 70 millions de bords.

Comme le montre le tableau ci-dessous, par rapport aux modèles de classification traditionnels, aux réseaux neuronaux de graphes généraux et aux modèles spécialisés de détection d'anomalies de graphes, BWGNN a obtenu de meilleures performances dans les deux scénarios de 40 % de données d'entraînement et de 1 % de données d'entraînement (semi-supervisé). ). De bons résultats. En termes d'efficacité opérationnelle, BWGNN est proche de la consommation de temps de la plupart des réseaux neuronaux de graphes généraux et est plus efficace que les autres modèles de détection d'anomalies de graphes.

Repenser la détection des anomalies basée sur des données structurées : de quel type de réseau neuronal graphique avons-nous besoin ?

Résumé

Dans cet article, les chercheurs ont découvert que l'apparition de nœuds anormaux sur le graphique entraînerait un « déplacement de l'énergie du spectre vers la droite », offrant une nouvelle perspective pour la détection d'anomalies pour les données structurées. Sur la base de ces résultats, cet article propose un nouvel outil pour la détection des anomalies graphiques : le réseau neuronal bêta Wavelet Graph (BWGNN). Il capture les informations sur les anomalies haute fréquence générées par le « décalage vers la droite » via un filtre passe-bande spécialement conçu et obtient des résultats optimaux sur plusieurs ensembles de données.

Dans la mise en œuvre réelle, la détection des anomalies graphiques est généralement une ingénierie système complexe, mais le choix d'un réseau neuronal graphique approprié est un facteur clé affectant les performances du système. Le BWGNN proposé par les chercheurs a une conception simplifiée, une faible complexité et est facile à remplacer. Il s'agit d'un nouveau choix pour les réseaux de neurones graphiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!