La clé des problèmes de stabilité opérationnelle : la disponibilité-Linux-php.cn

L'examen est davantage basé sur le résumé et l'amélioration ultérieurs. Alors, comment trouver et mesurer les problèmes de stabilité ? Ensuite, nous devons faire ressortir le protagoniste d’aujourd’hui : la disponibilité.

Quelle est la disponibilité ?

La disponibilité est un indicateur important pour évaluer la stabilité de l'entreprise. Elle peut découvrir des problèmes périodiques dans l'entreprise grâce à la quantification des données et à l'établissement de références, et ainsi améliorer la qualité du service de manière plus ciblée.

Alors, qu’est-ce que la convivialité ? La disponibilité fait référence à la proportion du temps total disponible pour un individu fonctionnel dans un intervalle de temps spécifié. En d’autres termes, il s’agit de la probabilité ou de la proportion de systèmes capables de fonctionner normalement au cours d’une période de temps spécifiée. La plupart de nos activités Internet actuelles sont « en temps réel » et « en ligne », c'est-à-dire des systèmes en ligne en temps réel. Pour la plupart de nos activités, la période de temps désignée mentionnée ci-dessus doit être de 7*24 heures.

Les résultats d'utilisabilité sont souvent exprimés en points décimaux ou en pourcentages. On utilise habituellement une mesure appelée nombre de neuf, qui correspond au nombre de neuf consécutifs après la virgule. Par exemple, « Five Nines » signifie que le système a une disponibilité de 0,99999 (ou 99,999 %) sur une période de temps spécifiée.

Comment comprendre la magnitude correspondante ?

Par exemple, un système fonctionne pendant une période de temps spécifiée, par exemple 1 jour, soit 24 heures. Dans le même temps, la granularité de notre surveillance est de quelques minutes, soit 1 440 minutes. Au cours des 1 440 minutes que nous avons surveillées, le système a fonctionné normalement pendant 1 430 minutes. Ensuite, pendant cette période de temps spécifiée, la disponibilité du système est de 1430/1440≈0,99306 (99,306 %). C'est ce que nous appelons souvent deux 9.

Ensuite, la valeur de 99,306 % représente la proportion du système dans l'état de disponibilité qui est normalement disponible, et la valeur de 0,694 % obtenue de 1 à 99,306 % représente la proportion de l'état d'indisponibilité dans laquelle le système est incapable de gérer des exceptions. Simplement répertorié sous forme de formule, c'est :

Le temps total de présence de l'entreprise = le temps normal de disponibilité de l'entreprise + le temps d'indisponibilité anormale de l'entreprise

Pour aller plus loin, la convivialité signifie :

Disponibilité = la durée normale de disponibilité de l'entreprise / la durée totale pendant laquelle l'entreprise est en ligne

La clé des problèmes de stabilité opérationnelle : la disponibilité

Comment créer de la disponibilité

Comprenant ce qu'est la convivialité, parlons de la façon d'établir la convivialité. Il existe de nombreuses façons d'établir la convivialité, et il existe plusieurs méthodes courantes :

Méthode de test de numérotation

La méthode de test de numérotation est une méthode permettant de tester périodiquement si l'état de fonctionnement de chaque entreprise est normal en fonction de ses applications, fonctions et modules.

Par exemple : notre entreprise dispose d'un module nommé A. Ensuite, nous effectuerons périodiquement (par exemple, une fois toutes les 5 minutes) des contrôles aléatoires sur l'état de fonctionnement de ce module en simulant le comportement des utilisateurs. Si le module fonctionne normalement, il est enregistré comme Disponibilité ; s'il est anormal, il est enregistré comme Indisponibilité. La proportion de statut de disponibilité accumulée sur une période de temps (par exemple, 1 jour) correspond à la disponibilité de ce module.

Alors, comment juger si l'activité ou le module est normal ? Prenons comme exemple une entreprise de type Web. Nous pouvons vérifier le contenu clé de la page d'accueil, de la page de catégorie ou de la page de contenu du service. De manière générale, nous pouvons faire correspondre les champs ou mots-clés spécifiés de l'en-tête, du corps et du bas de la page spécifiée. Si le champ ou le groupe de champs ou les mots-clés spécifiés peuvent correspondre, c'est normal, sinon c'est anormal. Nous pouvons utiliser des scripts, Nagios, Zabbix et d'autres outils pour mettre en œuvre des tests périodiques de l'entreprise.

Les avantages et les inconvénients de cette méthode sont évidents. L’avantage est que cette méthode est moins difficile à mettre en œuvre et peut être mesurée en simulant le comportement des utilisateurs, et elle peut également être plus cohérente avec la situation réelle de l’entreprise. Cependant, grâce à cette méthode d’échantillonnage périodique, se pose le problème d’échantillons d’échantillonnage insuffisants ou biaisés. Par exemple, un test de numérotation est effectué toutes les 5 minutes. Si le défaut se produit et est réparé dans ces 5 minutes, il sera difficile pour la méthode de test de numérotation de détecter de telles erreurs.

Méthode d'analyse des journaux

La méthode d'analyse des journaux est une méthode qui analyse les journaux d'application, de fonction et de module de chaque entreprise pour obtenir la disponibilité.

Par exemple : Notre entreprise dispose d'un module nommé A, alors le log d'1 heure sur ce module sera analysé périodiquement (par exemple, une fois par heure). La proportion de requêtes normales distinguée du niveau de journalisation correspond à la disponibilité de ce module au cours de la dernière heure. En prenant l'exemple de l'entreprise de type Web, nous pouvons effectuer des statistiques et des analyses sur les statuts 2XX et 5XX à partir des journaux. Nous pouvons comprendre que 2XX signifie disponibilité et 5XX signifie indisponibilité. (3XX et 4XX peuvent envisager de participer à l'analyse en fonction des conditions commerciales réelles)

Cette méthode résout évidemment le problème de l'échantillonnage insuffisant ou biaisé dans la méthode de test par cadran, mais il existe également des situations où l'indice d'impact réel sur l'entreprise peut être significativement différent. Par exemple, nos erreurs de l'heure écoulée se sont toutes produites en moins d'une minute et les 59 minutes restantes se sont déroulées normalement. Il existe évidemment un certain écart entre la disponibilité ainsi obtenue et la situation réelle de l’entreprise. Alors comment résoudre cet écart ? La méthode du seuil d’analyse des logs a vu le jour.

Méthode de seuil d'analyse des journaux

La méthode du seuil d'analyse des journaux est une méthode de planification de la disponibilité qui ajoute un jugement de seuil d'état basé sur la méthode d'analyse des journaux.

Par exemple : notre entreprise dispose d'un module nommé A. Nous avons découvert grâce à l'analyse des journaux que le nombre de requêtes pour ce module dans des circonstances normales est d'environ 100 000 fois par minute. Nous pouvons ensuite définir un seuil de 10 fois. Ce que ces 10 fois signifient, c'est que nous permettons qu'une erreur inférieure à un dix millième se produise en une minute. Si le nombre d'erreurs survenues en 1 minute est inférieur à 10, nous considérons que l'état de la dernière minute est normal et le marquons comme Disponibilité. Si plus de 10 erreurs se produisent en 1 minute, nous considérons l'état de la dernière minute comme anormal et le marquons comme indisponibilité. Enfin, le ratio de statut de disponibilité est calculé comme étant la disponibilité de ce module. Bien entendu, ce seuil doit être ajusté en fonction de la situation réelle de l’entreprise.

Cette méthode résout efficacement le problème de déconnexion entre l'écart d'échantillon de la méthode de test par cadran et l'impact commercial réel de la méthode d'analyse des journaux, et permet d'obtenir un bon équilibre.

Il y a une autre question, si une entreprise se compose de trois modules A, B et C, comment calculer la disponibilité de l'entreprise grâce à la disponibilité des modules ? La méthode simple consiste à utiliser la moyenne des disponibilités des trois modules les plus nombreux. Mais il y a un problème avec les objectifs commerciaux. Nous pouvons ensuite utiliser une méthode de moyenne pondérée en l’alignant sur les objectifs commerciaux. Par exemple, si le module A est plus critique pour l'entreprise, nous accorderons plus de poids au module A lors du calcul de la disponibilité ; le module C est un système de contournement pour l'entreprise, afin que nous puissions réduire le poids du module C lors du calcul de la disponibilité. Par analogie, la disponibilité que nous obtenons peut être aussi proche que possible de l’entreprise et de ses objectifs.

Autres méthodes

Nous pouvons également utiliser les nœuds de plateformes de test tierces telles que Keynote et Borui pour effectuer des tests plus approfondis de l'entreprise afin d'améliorer la précision de la collecte d'échantillons et de réduire son écart. Bien entendu, les résultats sont également limités par la plateforme tierce et la stabilité des liens
Pour les entreprises ayant des clients, nous pouvons effectuer une gestion sur le chemin critique du client, puis centraliser les journaux de gestion des utilisateurs sur le serveur pour une analyse centralisée. Bien que cette méthode puisse refléter le statut d'utilisateur le plus réaliste, elle présente également des problèmes tels que des coûts de mise en œuvre relativement élevés et des téléchargements de journaux retardés.

Écrit à la fin

Il existe beaucoup moins de façons de calculer la disponibilité que celles décrites ci-dessus, et il n'existe pas de méthode unique capable de résoudre tous les problèmes et points douloureux. Choisissez une ou plusieurs méthodes les plus adaptées à votre entreprise ou à votre équipe du point de vue du coût, des revenus, du temps, etc., et utilisez-les pour améliorer continuellement la qualité de service de votre entreprise.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!