Le 5 juin, Vipshop a publié un rapport de panne le 29 mars 2023. En raison d'un défaut dans le système de réfrigération Nansha IDC, le centre commercial en ligne de Vipshop a cessé de fonctionner, causant des centaines de millions de pertes (en tant que petite personne d'exploitation et de maintenance , je tremble).
Pour Vipshop, le centre commercial en ligne est son cœur de métier. L'échec est inévitable, mais il ne peut être toléré quand l'échec dure si longtemps. Pourquoi cela se produit-il ? Aux yeux des petits opérateurs comme nous, ce genre d'accident ne devrait pas se produire dans une entreprise de cette ampleur. Nous recherchons tous des moyens de fonctionner et de maintenir en imitant et en apprenant de leurs PPT.
Cependant, PPT est si avancé qu’il ne peut pas empêcher les dysfonctionnements de se produire. Pourquoi ?
Personnellement, je me risque à faire quelques suppositions :
De nos jours, diverses conférences technologiques nationales invitent les directeurs techniques et les dirigeants techniques de certaines entreprises bien connues à prononcer des discours. À en juger par les discours, chaque entreprise est très. fort (du moins c'est comme ça que cela est montré sur le PPT). Chaque fois que je l'écoute, je m'éclaire soudainement et j'en profite grandement. J'admire ces entreprises du fond du cœur, j'admire leur super pensée, leur super capacité et leur capacité. équipe super cool.
Cependant, PPT n'est qu'un outil auxiliaire après tout, il ne peut pas remplacer le statu quo.
Les beaux PPT sont réservés à ceux qui veulent les voir. Les choses peu belles doivent être endurées seules.
J'ai déjà vu le partage de Vipshop sur GOPS, et la présentation PPT est vraiment géniale. Si vous l'utilisez pour faire rapport au patron, le patron sentira également que la technologie de notre entreprise est vraiment puissante, que nous nous en sortons très bien et que nous le faisons. J'ai tout donné au patron. Toutes les bonnes illusions.
Si quelque chose ne va pas, qui ferez-vous si vous ne le faites pas ?
Tout ce qui sort de ta bouche reviendra également dans ta bouche.
Dans le livre "SRE : Décryptage des opérations et maintenance de Google", les exercices de pannes occupent une grande place. Grâce à des exercices de pannes, la fiabilité et la tolérance aux pannes du système peuvent être améliorées, l'équipe peut mieux comprendre l'architecture et les principes de fonctionnement du système, l'influence mutuelle de chaque module peut être mieux comprise et les failles et failles dans l'architecture du système peuvent La faute sera découverte plus rapidement.
On peut dire que les exercices de détection des défauts sont le maillon central de toute la garantie de stabilité, car ils peuvent aider l'équipe à minimiser les défauts réels et à répondre plus efficacement aux problèmes éventuels.
Mais est-ce vrai dans la réalité ?
Lors de la réalisation d'un exercice de détection de pannes, le point de défaillance doit être prédéterminé, des contre-mesures spécifiques doivent être organisées et mises en œuvre, un plan complet doit être désigné et les responsabilités et tâches professionnelles de chaque personne doivent être décrites avec précision.
Ces travaux préparatoires nécessitent à eux seuls beaucoup de main-d'œuvre et de ressources matérielles. De nombreuses équipes et de nombreuses personnes rationaliseront les étapes et les mesures. Ils examineront les exercices de détection des défauts avec la mentalité que s'ils sont effectués, ils examineront le défaut lui-même avec un regard attentif. mentalité chanceuse et mettre de l'espoir dans l'avenir.
Par exemple, si vous placez vos espoirs dans le cloud public, s'il n'y a pas de problème avec le cloud public, tout le système sera stable, mais le cloud public≠ est totalement fiable Google Cloud, Alibaba Cloud, Tencent Cloud, etc. ont tous eu des accidents majeurs, mais ce sont les usagers eux-mêmes qui paient la facture .
Ainsi, pour l'équipe d'exploitation et de maintenance ou l'équipe SRE, les exercices de détection de pannes doivent être pris au sérieux. Ils doivent non seulement effectuer des travaux préparatoires pour l'exercice, mais également prêter une attention particulière au plan pendant l'exercice, prendre des mesures en temps opportun et effectuer des travaux. corrections si des problèmes sont découverts.
Ne laissez pas l’exercice devenir une formalité, ne laissez pas l’exercice devenir un KPI, sinon vous serez la prochaine cible d’optimisation.
Le problème avec Vipshop le 29 mars peut être reflété de côté : vivez longtemps, peut-être que ce n'est que des paroles.
Avec le développement des métiers, l'architecture système va continuer à évoluer car nos exigences en matière de haute disponibilité sont de plus en plus élevées.
Par exemple, passer d'une architecture mono-machine dans la même salle informatique à une architecture active-veille, puis passer à une architecture multi-machines dans la même ville, et enfin atteindre le niveau d'architecture à trois centres en deux lieux.
Si Vipshop construisait plusieurs salles informatiques dans la même ville, même les systèmes principaux et de secours les plus simples de la même ville ne seraient pas en panne avant 12 heures.
Sans oublier si vous vivez en double dans la même ville.
Cependant, je ne fais que deviner du point de vue de Dieu. Peut-être qu’ils travaillent aussi beaucoup, mais ils font simplement semblant de travailler beaucoup.
Comme mentionné ci-dessus, en fin de compte, cela dépendra des ressources financières, humaines et matérielles. Prenons l'exemple de Duohuo, le coût de la mise en place d'un plan de reprise après sinistre à l'échelle de la ville. n'est pas aussi simple que dubbo. Chaque fois que SRE Lorsque le responsable se présente au supérieur pour demander des fonds, si les dirigeants d'en haut ne le soutiennent pas (l'argent n'a pas encore été gagné, il faut donc dépenser beaucoup d'argent), tout sera en vain.
Les dirigeants doivent contrôler les coûts et les subordonnés ont besoin d'argent pour faire les choses. Des coûts insuffisants conduisent à l'incapacité de joindre les deux bouts, ce qui conduira à une situation où le PPT est beau, mais la réalité est terrible.
Même si vous avez de l'ambition, cela ne sert à rien.
Si quelque chose ne va pas, je te sacrifierai au ciel.
Ce qui précède est purement fictif, s'il y a une similitude, merci de l'aimer~
Dans de nombreuses entreprises, la voix de l'exploitation et de la maintenance est très faible, au point d'être ridiculement faible, ce qui entraîne exploitation et maintenance faire des choses ou promouvoir des choses. Il est difficile de faire un seul pas.
Cependant, lorsqu'un problème survient, l'exploitation et la maintenance sont les premières à être éliminées, de sorte que le « bouc émissaire » a toujours été imputé à l'exploitation et à la maintenance.
Alors, que devons-nous faire en tant qu'agent d'exploitation et de maintenance ?
Enfin, parlons-en, ne vous moquez pas de la production.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!