Construction pratique et application d'un système d'analyse intelligent des événements piloté par l'IA-IA-php.cn

1. Contexte

Avec l'application généralisée de nouvelles technologies telles que la virtualisation et le cloud computing, l'échelle de l'infrastructure informatique au sein des centres de données d'entreprise a augmenté rapidement. Cela a entraîné une augmentation de la taille du matériel informatique et des logiciels, ainsi que des pannes informatiques fréquentes. Par conséquent, le personnel d’exploitation et de maintenance de première ligne a besoin de toute urgence d’outils d’exploitation et de maintenance plus professionnels et plus puissants pour relever les défis.

Dans l'exploitation et la maintenance quotidiennes des centres de données, des systèmes de surveillance de base et des systèmes de surveillance des applications sont généralement utilisés pour créer des mécanismes de détection de pannes. En définissant des seuils prédéfinis, lorsque diverses anomalies logicielles et matérielles se produisent, les éléments indicateurs dépasseront ces seuils, déclenchant des alarmes. Les experts en opérations sont immédiatement informés et effectuent un dépannage pour garantir un fonctionnement stable du centre de données. Un tel mécanisme de surveillance peut détecter et résoudre les problèmes potentiels à temps, améliorant ainsi la fiabilité et la disponibilité du centre de données.

Le système d'analyse intelligent des événements est un système conçu pour résoudre les transitions d'alarme, les analyser et les gérer.

2. Architecture globale

1. Architecture du système d'analyse intelligente des événements

Le système d'analyse intelligente des événements crée un système complet de gestion des défauts de « identification des défauts-analyse des défauts-gestion des défauts » pour intégrer l'exploitation et la maintenance L'expérience des experts est accumulée dans un modèle numérique Lorsqu'un défaut survient, le défaut peut être automatiquement « identifié-analysé-éliminé », raccourcissant ainsi le MTTR (Mean Time To Repair).

Le système d'analyse intelligente des événements introduit la technologie IA pour responsabiliser chaque module du système. Lorsque l'expert en exploitation et maintenance n'établit pas manuellement un modèle de défaut, l'IA établit automatiquement un défaut pour l'alarme, l'analyse automatiquement, puis l'analyse. fournir un plan d'analyse pour aider les experts en exploitation et en maintenance à analyser le défaut. L'autonomisation de l'IA réduit la pression de la charge de travail de modélisation des experts en exploitation et maintenance, et compense également les angles morts de l'expérience des experts en exploitation et maintenance.

Voici le schéma d'architecture global du système d'analyse intelligente des événements :

Construction pratique et application dun système danalyse intelligent des événements piloté par lIA image

La partie bleue est le module fonctionnel du système d'analyse intelligente des événements, et la partie orange est le système périphérique, fournissant les données ou l'interface correspondantes.

2. Relation avec les systèmes environnants

Plateforme d'événements unifiée : le système d'alerte collecte les alarmes de divers systèmes de surveillance (surveillance de base, surveillance des applications et surveillance des journaux) et, après une agrégation unifiée, les convertit en un format unifié, envoyé à Kafka ; le système d'analyse intelligent des événements lira toutes les données d'alarme du système Kafka.

Plateforme d'automatisation : les experts en exploitation et en maintenance créent à l'avance des orchestrations et des scripts sur la plate-forme d'automatisation comme méthode de traitement des pannes. Une fois que l'analyse des pannes a trouvé la cause première, la tâche d'élimination peut être orchestrée et exécutée par. appelant l'interface de la plate-forme d'automatisation. Enfin, pour atteindre l'objectif d'élimination automatique.

CMDB : lors de l'analyse des défauts, vous pouvez utiliser les attributs et les relations d'instance d'objet stockés dans la CMDB pour associer logiquement les instances d'alarme et les instances d'élimination en même temps, lors de l'affichage de certaines informations sur les objets entourant l'objet d'alarme ; devez associer les données d'instance d'objet CMDB correspondantes.

ITSM : fournit des données d'ordre de travail telles que les ordres de modification et les ordres d'incident. Lorsqu'une panne se produit, ces données d'ordre de travail doivent être utilisées pour l'analyse.

Exploitation et maintenance de la plate-forme Big Data : la plate-forme Big Data fournit des outils de nettoyage des données pour aider la plate-forme d'analyse intelligente des événements à nettoyer les données requises, et fournit également un support technique pour le stockage massif de données. analyse intelligente des événements Il fournit également des données d'analyse pour une analyse ultérieure de l'IA, y compris les données d'objet CMDB, les données d'ordre de travail ITSM, les données d'indicateur du système de surveillance et les données d'alarme, etc.

3. Explication détaillée des fonctions

1. Identification des défauts

La fonction principale de l'identification des défauts est d'établir un modèle de défaut, qui peut définir les règles de conversion des alarmes en défauts. En même temps, la définition du modèle de défaut est également une classification simple des défauts, tels qu'un défaut d'utilisation élevée du processeur, un défaut d'utilisation élevée de la mémoire, un défaut d'utilisation élevée du disque, un défaut de retard du réseau, etc. En termes simples, cela signifie quelles alarmes peuvent devenir une seule. défaut, alarmes et défauts La relation quantitative peut être soit 1:1, soit n:1, ce n'est que lorsqu'un défaut spécifique se produit que l'analyse et l'élimination ultérieures peuvent être facilitées.

Format des alarmes :

Les alarmes reçues de la plateforme événementielle unifiée sont standardisées et traitées dans le format requis par le système de traitement intelligent des événements. Certains champs doivent être complétés en recherchant les données d'instance d'objet de gestion de configuration. .

Définition du modèle de panne :

La définition du modèle de scénario de panne comprend principalement des informations de base, des règles de panne et des fonctions de prise de décision d'analyse. La description spécifique est la suivante :

1) Les informations de base incluent le nom de la panne. , objet appartenant, défaut Les informations telles que le type et la description du défaut

2) Les règles de défaut peuvent être divisées dans les catégories suivantes :

Définition des règles de mots clés pour la correspondance des alarmes : des champs tels que le résumé et le niveau dans le champ json de l'alarme peuvent être définis comme conditions, et plusieurs règles peuvent être définies logiquement (ET ou NON des règles) Calcul ); : y compris l'exécution immédiate (les instances de défaut sont générées immédiatement après la réception d'une alarme), l'attente d'une fenêtre de temps fixe (les alarmes dans un délai après le début de l'alarme initiale pour forcer l'agrégation des instances de défaut) et l'attente d'une fenêtre de temps mobile ( après le démarrage de la dernière alarme) Les alarmes au cours d'une période donnée sont forcées de regrouper les instances de panne)
Règles de localisation : y compris la même machine, la même unité de déploiement et le même sous-système physique, les alarmes qui répondent aux conditions dans la plage spécifiée. sont regroupés en une seule instance de panne.

3) Associez l'arbre de décision d'analyse spécifié pour déterminer le plan d'analyse.

2. Analyse des défauts

L'analyse des défauts consiste à analyser et à afficher les défauts sous plusieurs aspects tels que l'affichage des données associées, l'affichage des données topologiques, l'arbre de décision d'analyse et la récupération de la base de connaissances, fournissant un support de données pour l'exploitation et la maintenance. experts, les aidant à trouver rapidement la cause profonde du défaut et à le résoudre. L'arbre de décision d'analyse peut être associé à une disposition.

Affichage des informations associées :

1) Analyse des alarmes : données d'alarme des dernières 48 heures pour le sous-système physique correspondant à l'objet d'alarme et d'autres objets logiciels et matériels associés à l'unité de déploiement

2) Indicateur ; analyse : données d'indicateur du sous-système physique correspondant à l'objet d'alarme et d'autres objets logiciels et matériels associés à l'unité de déploiement dans les 2 heures précédant la panne

3) Analyse des modifications : modifier les enregistrements d'ordre de travail du système correspondant à l'objet d'alarme ; au cours des dernières 48 heures, effectuez une analyse des changements ;

4) Analyse des journaux : analysez les journaux d'application et les journaux système des chemins spécifiés de l'objet d'alarme et des objets environnants, et affichez-les

5) Analyse des liens : Avec le le code de transaction comme noyau, l'objet d'alarme Analyser et afficher les données de liaison en amont et en aval des codes de transaction impliqués ;

Affichage de la structure topologique :

Prendre le sous-système physique comme dimension, les objets d'exploitation et de maintenance impliqués dans l'ensemble du système sont organisés selon une topologie arborescente. La structure est affichée et les nœuds avec des alarmes sont marqués en rouge pour alerter les experts en exploitation et en maintenance.

Des exemples spécifiques sont les suivants :

Images Construction pratique et application dun système danalyse intelligent des événements piloté par lIA

Arbre de décision analytique :

Basé sur des objets et des relations CMDB, des alarmes, des indicateurs, des modifications, des journaux et des liens et d'autres données, Intégré dans des arbres de décision d’analyse modifiables personnalisés.

Les experts en exploitation et maintenance peuvent prédéfinir les critères d'ordre et de jugement pour l'analyse des données, et précipiter l'expérience d'exploitation et de maintenance dans l'arbre de décision d'analyse sous la forme d'un modèle numérique. Lorsqu'une panne se produit, la plateforme utilisera le préréglage. arbre de décision d'analyse Analyser et juger les données pertinentes, et enfin fournir des résultats.

Les nœuds feuilles finaux de l'arbre de décision d'analyse peuvent être associés à l'élimination, assurant le fonctionnement automatisé de l'ensemble du cycle de vie « identification-analyse-élimination » des défauts.

Des exemples spécifiques sont les suivants :

Photos Construction pratique et application dun système danalyse intelligent des événements piloté par lIA Recherche dans la base de connaissances :

Le centre de données construit un système de base de connaissances basé sur les données de la plateforme Big Data d'exploitation et de maintenance, collectant principalement les urgences. plans, données textuelles telles que les enregistrements de l'ensemble du processus de traitement des tickets d'incident et les résumés d'expérience des experts en exploitation et en maintenance.

Lorsqu'une erreur se produit, le mot-clé d'erreur sera utilisé pour rechercher dans la base de connaissances (correspondance de chaînes), et la connaissance textuelle correspondante sera renvoyée sous forme d'expérience d'expert. Dans le chapitre sur l'autonomisation de l'IA, nous parlerons de l'utilisation de l'analyse de texte pour les recherches associées, et pas seulement de la simple correspondance de chaînes.

3. Gestion des défauts

La gestion des défauts est principalement gérée selon le modèle d'élimination prédéfini, qui comprend principalement la prise de décision et les opérations d'élimination, et doit s'appuyer sur la plate-forme d'automatisation pour réaliser le orchestration et exécution des tâches d’élimination.

1) Orchestration de mise au rebut : L'orchestration de mise au rebut est une combinaison organique d'une série d'opérations de mise au rebut, car certaines mises au rebut nécessitent que les objets d'exploitation et de maintenance soient isolés puis redémarrés ; les scripts d'opération sont traités selon l'ordre établi. La commande est envoyée à la machine d'instance spécifique et exécutée

2) Opération de suppression : Encapsuler le script (shell, python) afin qu'il puisse être exécuté sur la machine d'instance ou appelé par ; l'orchestration de l'élimination ; l'opération d'élimination consiste à éliminer les plus petites actions, telles que le redémarrage du Tomcat, l'isolation, le disjoncteur et d'autres scripts

La gestion des pannes est principalement basée sur l'expérience des experts en exploitation et en maintenance ou sur les documents du plan d'urgence ; sont précipités numériquement dans des modèles.

Une fois le traitement des défauts terminé, les enregistrements pertinents du traitement seront enregistrés conformément au processus pour examen et analyse ultérieurs.

4. Autonomisation de l'IA

L'autonomisation de l'IA consiste à minimiser la charge de travail de configuration manuelle et à réduire la pression de travail des experts en exploitation et en maintenance dans l'ensemble du processus « d'identification-analyse-élimination » des défauts. Elle peut également compenser les parties qui ne peuvent pas être couvertes par l'expérience. d'experts en exploitation et maintenance, et peut La phase d'initialisation couvre 100 % des types d'alarmes survenus dans l'histoire, le principe général est d'utiliser les calculs d'IA pour construire des modèles de pannes et des plans d'analyse dans le domaine de l'identification et de l'analyse des pannes grâce à la modélisation automatique ; , agrégation automatique, analyse automatique, etc. Fournir une référence aux experts en exploitation et maintenance, mais garantir que le jugement et le contrôle finaux sont effectués par des experts en exploitation et maintenance, garantissant que l'algorithme effectue 99 % du travail et que l'examen manuel garantit le dernier 1% du travail.

1. Modélisation automatique

En rappelant la définition du modèle de faille au chapitre 3-1, nous avons constaté que tant que les règles d'alarme, les règles temporelles et les règles spatiales sont déterminées, et que l'arbre de décision d'analyse est déterminé, un modèle de panne peut être établi, tandis que les règles temporelles et spatiales peuvent par défaut être l'exécution immédiate la plus courante et la même machine, l'arbre de décision d'analyse peut utiliser les contrôles de santé les plus courants.

Donc, pour établir un modèle de défauts et construire un modèle pour le même type de défauts, le problème principal est de classer les défauts à travers le contenu de l'alarme, et nous utilisons les mots-clés du contenu de l'alarme pour déterminer la classification, puis établir un certain type de modèle de faute . Le problème de la modélisation automatique dégénère alors en recherche de mots-clés pour les alarmes et en l'établissement de modèles de pannes basés sur ceux-ci.

Le schéma logique global est le suivant :

Construction pratique et application dun système danalyse intelligent des événements piloté par lIA Images

Entrez les alarmes historiques et les alarmes en temps réel dans le modèle de défaut une par une si le modèle de défaut existant peut correspondre. , terminez cet article Traitement des alarmes ; s'il n'y a pas de modèle de défaut correspondant, le mot-clé du contenu de l'alarme est calculé via un algorithme et un modèle de défaut est construit sur la base du mot-clé, puis le modèle de défaut nouvellement construit est ajouté au défaut. liste de modèles.

Les experts en exploitation et maintenance peuvent généraliser le modèle de défaut et le mettre en ligne par confirmation manuelle.

Cette méthode de modélisation automatique présente les avantages suivants :

1) Elle peut traiter les alarmes en temps réel, effectuer une modélisation des pannes en temps réel, et mettre à jour le modèle très rapidement

2) La modélisation ne dépend pas de ; Basée sur l'expérience des experts en exploitation et maintenance, la modélisation peut être effectuée directement via le contenu des alarmes ;

3) Elle peut couvrir toutes les alarmes historiques et répondre aux nouvelles alarmes en temps réel

4) Il n'y a pas besoin d'exploitation et de maintenance ; les experts doivent effectuer une grande quantité de travail de configuration du modèle, économisant ainsi de la main d'œuvre ; les experts en exploitation et maintenance n'ont qu'à effectuer la confirmation manuelle finale, améliorant ainsi l'efficacité tout en garantissant les résultats

De manière générale, les mots qui apparaissent fréquemment dans les documents doivent être calculés ; , mais ont une faible probabilité d'apparaître dans des documents massifs, deviennent Plus la probabilité du mot-clé est grande, le résultat du traitement d'une partie de la mémoire d'alarme est le suivant :

Construction pratique et application dun système danalyse intelligent des événements piloté par lIA Images

En utilisant l'algorithme ci-dessus et en utilisant une partie du contenu de l'alarme pour le calcul, l'effet de données obtenu est le suivant :

Construction pratique et application dun système danalyse intelligent des événements piloté par lIA Images

2. libéré BERT (Bidirectionnel Encoder Representations from Transformers), il est en tête du classement dans diverses tâches de texte et a obtenu un très bon effet, utilisez-le donc pour calculer la similarité du texte, principalement pour calculer la similarité entre le contenu de l'alarme et la description du défaut.

Maintenant, construisez notre algorithme de clustering, le diagramme de processus spécifique est le suivant :

Photos

Construction pratique et application dun système danalyse intelligent des événements piloté par lIA Les étapes spécifiques sont les suivantes :

1) Si nécessaire, vous pouvez définir manuellement la description du défaut comme un défaut Le sens d'ancrage du clustering ; cette étape n'est pas nécessaire, sinon, sautez-la directement

2) Nettoyez les informations d'alarme et supprimez certains caractères inutiles

3) Utilisez le modèle BERT pour analyser le défaut ; texte du résumé de l'alarme Effectuer un calcul de similarité de texte sur le contenu et les informations de tous les groupes de défauts pour obtenir des résultats similaires (déterminer s'ils sont similaires en jugeant s'ils dépassent le seuil

4) S'ils sont similaires, alors cette alarme appartient ; à ce cluster de défauts.

5) Si la valeur de distance ne dépasse pas le seuil, définissez cette alarme comme un nouveau cluster de défauts

6) Les résultats des étapes 4 et 5 sont mis à jour dans la liste d'informations du cluster de défauts ;

7) À partir de l'étape 2, traite ensuite les données d'alarme suivantes.

Cet algorithme peut attribuer des alarmes à différents types de défauts. S'il n'existe aucun type de défaut existant, un type auto-construit sera créé. Différentes méthodes d'analyse peuvent être utilisées pour classer différents types de défauts.

Les avantages de cet algorithme sont les suivants :

1) Classification automatique des défauts non supervisée grâce à des données d'alarme historiques et en temps réel, sans qu'il soit nécessaire de créer un modèle de défaut, ce qui permet d'économiser de la main d'œuvre

2) Pour les alarmes en temps réel ; , regroupement des défauts Le processus garantit des mises à jour en ligne en temps réel sans avoir besoin de calculs réguliers ni de mises à jour du modèle

3) Les alarmes sont automatiquement générées ou associées aux défauts, qui peuvent en outre être associées aux plans d'urgence correspondants pour obtenir des plans d'analyse des défauts et d'élimination ; méthodes.

3. Générer automatiquement un plan d'analyse

Revoir le chapitre 3-2 Analyse des pannes. L'analyse de la panne se concentre principalement sur l'affichage des informations du nœud de panne et des nœuds environnants, et sur la configuration de l'arbre de décision d'analyse. . Cela nécessite également davantage de réglages manuels.

Après l'autonomisation de l'IA, envisagez d'utiliser des plans d'urgence, des détails d'alarme et d'afficher des informations dans l'analyse des défauts sous forme d'invites (invites), et utilisez de grands modèles de langage existants avec d'excellents résultats pour fournir automatiquement des solutions d'analyse des défauts.

Considérant la question du déploiement privatisé, les grands modèles de langage peuvent envisager ChatGLM2, lama2, etc. Dans la phase de mise en œuvre spécifique, différents grands modèles de langage peuvent être sélectionnés en fonction des besoins et des niveaux de matériel. LLM est uniformément utilisé pour représenter les grandes langues, les lecteurs doivent faire attention à la distinction.

Le schéma principal du processus est le suivant :

Construction pratique et application dun système danalyse intelligent des événements piloté par lIA Images

Après l'identification du défaut, l'alarme en temps réel correspondante et les données pertinentes affichées sont obtenues, combinées aux données du plan d'urgence, pour former une combinaison d'invite et d'invite d'invite Le but du mot est d'obtenir de meilleurs effets de sortie lors de la pose de questions sur le grand modèle de langage LLM.

Dans le même temps, le plan d'urgence et les données d'alarme historiques sont stockés dans la base de données vectorielle faiss par lots. La quantité de texte dans chaque lot ne dépasse pas la limite de jetons de LLM lorsque le mot d'invite combiné dépasse le LLM ; grand modèle de langage, ce sera Prompt qui combine les mots d'invite pour interroger la base de données de vecteurs faiss pour obtenir le texte avec les vecteurs les plus similaires ; interroger LLM avec ces textes qui ne dépassent pas la limite de longueur du jeton, et le résultat renvoyé est l'analyse des défauts. plan (sous forme de texte).

Veuillez vous référer à l'image ci-dessous pour l'effet spécifique :

Construction pratique et application dun système danalyse intelligent des événements piloté par lIA Photos

4. tous les systèmes et Les étapes d'analyse et de traitement des défauts correspondant à tous les objets d'exploitation et de maintenance sont de très bonnes données textuelles sur lesquelles s'appuyer. Le contenu des plans d'urgence sera utilisé à de nombreux endroits dans ce système. Par conséquent, il est nécessaire de fournir des capacités de récupération pour les plans d'urgence, et le système de base de connaissances peut être utilisé comme base de récupération pour les plans d'urgence.

peut fournir une récupération de texte par correspondance de chaîne, une récupération de mots clés après analyse de texte et une récupération de similarité de vecteur au niveau sémantique. Dans les deux cas, il s'agit d'obtenir le plan d'urgence correspondant requis par le système.

Plusieurs des méthodes de recherche ci-dessus peuvent être traitées à l'aide des moyens techniques mentionnés ci-dessus et ne seront pas décrites à nouveau ici.

5. Conclusion