Anmerkung des Herausgebers: Chef Jing war der Chef meines Teams, als ich 2011 zu Baidu kam. Er ist ein hartgesottener Veteran. Es war nicht einfach, diese Gelegenheit zu nutzen. Er stellte den Lesern alle gängigen Fragen. Herr Jing hat ein freies und lockeres Wesen, seine Witze und Flüche sind alle niedergeschrieben und seine Prinzipien sind leicht zu verstehen. Hier ist die erste Ausgabe des bodenständigen und hochkarätigen „Betriebs- und Wartungsforums“, los geht's!
Gastvorstellung
Jingyuan, erster von links, ehemaliger Betriebs- und Wartungsarchitekt von Baidu, ehemaliger Betriebs- und Wartungsleiter von Xiaomi, ehemaliger CIO von Meicai
Einige Betriebs- und Wartungsmitarbeiter spiegeln den Wert des Unternehmens für den Betrieb wider und Wartung Wie haben Sie dem Unternehmen damals mit sehr wenig Wissen den Wert von Betrieb und Wartung klar erklärt?
Zunächst müssen Sie dem Unternehmen die Aufgabenbereiche Betrieb und Wartung (was Betrieb und Wartung leistet und was sie produzieren) und Schlüsselindikatoren (Messung der Ausgabeergebnisse) klar erklären. Die Arbeit dreht sich beispielsweise um Stabilität , Sicherheit, Effizienz usw. und welche Vorgänge durchgeführt werden Wartungsprojekte, wie man das Erreichen von Schlüsselindikatoren proaktiv fördert.
Zu den Schlüsselindikatoren gehören nicht nur die Dienstverfügbarkeit, sondern auch die Compliance-Rate der Serverressourcen, Dienstfehlerdaten (Fehlerklassifizierung, Fehlerreaktionszeit, mittlere Fehlerwiederherstellungszeit, Fehleralarmabdeckung), Dienstsicherheitsindikatoren, Dienstressourcenverfügbarkeitszeit usw. warten .
Erstellen Sie beispielsweise ein vollständiges Überwachungssystem:
Überwachen Sie die Serverressourcennutzung, finden Sie Server mit minderwertiger Nutzung für Recycling oder Ressourcenneuzuweisung, verbessern Sie die Ressourcennutzung durch Virtualisierung, Containerisierung usw. und klären Sie Alarmschwellenwerte. Standardisieren Sie P0, P1 , P2- und P3-Alarmstufen; das Überwachungssystem bietet Alarmzusammenführung, intelligente Positionierungsvorschläge, aktive Alarmaggregation und Zeit-Breiten-Alarmanalyse. Bequeme und schnellere Alarmreaktion und Fehlerortung, Verbesserung der Alarm- und Planungssortierung von Diensten wie Fehlerreaktionszeit und Fehlerwiederherstellungszeit, Verkürzung der mittleren Fehlerwiederherstellungszeit und Verbesserung der Fehleralarmabdeckung.
Einige Leute in der Branche glauben, dass die Stiftung von Cloud und Kubernetes Der Aufstieg der Einrichtungen wird nach und nach Betriebs- und Wartungspositionen eliminieren. Was halten Sie von dieser Ansicht?
Vor vielen Jahren lautete der Slogan unseres Betriebs- und Wartungsteams NO Ops und der Blog hieß noops.me.
Es wurde schon vor langer Zeit gesagt, dass Betriebs- und Wartungspositionen nach und nach verschwinden oder einige berufliche Verantwortlichkeiten verschwinden werden. Nehmen wir als Beispiel den Systembetrieb und die Wartung. Das vorherige Managementteam erforderte ein Team von 20 Personen, darunter Serveringenieure, Kernel-Ingenieure, Netzwerkingenieure, CDN-Ingenieure sowie Betriebs- und Wartungsingenieure für Computerräume. Später, mit der Einführung der Public Cloud, bestand das Team nur aus 4 Personen, darunter 1 Cloud-Ressourcenadministrator, 1 CDN-Planungsingenieur, 1 Netzwerkingenieur und 1 Kernel-Ingenieur. Sie mussten nur die von Dritten bereitgestellten Ressourcen und Dienste verwalten und planen -Party-Unternehmen können.
Mit der Popularität von K8s und der Cloud und der kontinuierlichen Reife der Entwicklung von F&E-Codes werden Betrieb und Wartung immer weniger in diesen Prozess einbezogen. Wenn das Bereitstellungsframework ausgereift ist, wurde die Bereitstellung von Diensten der zweiten und dritten Ebene dem F&E-Self-Service überlassen, um Betriebs- und Wartungspersonal einzusparen und die Bereitstellungseffizienz zu verbessern.
Mit der Entwicklung der Technologie und den Veränderungen der Zeit ist es normal, dass eine Position verschwindet. Rechtzeitige Anpassungen und Planung stehen im Mittelpunkt des Denkens.
Welche Anpassungen sollte das Betriebs- und Wartungspersonal Ihrer Meinung nach in der aktuellen Umgebung, in der Unternehmen in großem Umfang in die Cloud migrieren, vornehmen, um den aktuellen Talentbedarf besser zu decken?
In der Cloud-Umgebung sollten Betriebs- und Wartungsingenieure stärker geschäfts- und architekturorientiert sein, ihren Geschäftsumfang erweitern und zu Schlüsseltalenten werden, um die Geschäftsstabilität sicherzustellen. Wenn es immer noch dasselbe ist wie zuvor und sich nur auf die Überwachung von Alarmen konzentriert und nur für Änderungen bei der Dienstbereitstellung verantwortlich ist, wird es definitiv beseitigt.
Andererseits können Sie in Richtung Spezialisierung gehen, Experte in einem bestimmten Bereich (Überwachung, Big Data, K8s, Datenbank usw.) werden und ein F&E-Experte für Betrieb und Wartung werden.
Lebensberatung, Suche nach mehr Nebenjobs, Bedienungs- und Wartungsarbeiten sind nur ein kleiner Teil des Lebens.
AIOps wird seit mehreren Jahren heiß gehypt, aber die Begeisterung ist in letzter Zeit offensichtlich leiser geworden. Glauben Sie, dass Unternehmen AIOps zu diesem Zeitpunkt implementieren sollten? Auf welche Themen sollten wir achten?
Nehmen Sie als Beispiel intelligente Überwachung. Ich habe viele Werbetexte gesehen, die besagten, dass KI zur Vorhersage von Fehlern und zur intelligenten Lokalisierung eingesetzt werden sollte. Ich habe bisher keine verlässlichen Fälle gesehen. In einem Internet-Geschäftssystem, in dem sich Dienste schneller ändern, Abhängigkeiten komplex sind und es viele Faktoren gibt, die Fehler beeinflussen, ist es wirklich möglich, eine Fehlervorhersage anhand historischer Daten zu erreichen. Es ist besser, Erdbebenvorhersagen über Tausende von Jahren zu erstellen, die einen großen gesellschaftlichen Wert schaffen können.
Die Voraussetzung für die Durchführung von AIOps ist, KI wirklich zu verstehen und die Prinzipien des maschinellen Lernens und neuronaler Netze zu verstehen. Es gibt so viel Intelligenz wie künstliche Intelligenz, und AIOps-Fähigkeiten sind kein Schlagwort.
Glauben Sie, dass KI-Funktionen wie chatGPT in Zukunft Probleme in der Betriebs- und Wartungsbranche lösen können?
Zum Beispiel werden im Fehlermanagement basierend auf den fehlerhaften Geräten, Daten, Beschreibung, Wissensdatenbank, historischer Fehlerdatenbank usw. Hilfsvorschläge (suggestbot) für mögliche Fehler gegeben
Übrigens, wenn Sie chatGPT bereits spielen können Setzen Sie diese Technologie in anderen Bereichen ein, die mehr Wert generieren können, und verschwenden Sie sie nicht immer im Bereich Betrieb und Wartung ...
Ob die Bereitstellung von Geschäftsprogrammen der Forschung und Entwicklung oder dem Betrieb und der Wartung überlassen werden sollte, wird in vielen Unternehmen endlos diskutiert. Was halten Sie von diesem Thema?
Wie bereits erwähnt, werden unsere Dienstleistungen der zweiten und dritten Ebene vollständig von der Forschung und Entwicklung bereitgestellt, während die Dienstleistungen der ersten Ebene wiederum von Betrieb und Wartung sowie von Forschung und Entwicklung erbracht werden. Der Hauptzweck besteht darin, den Betrieb und die Wartung über die Änderungen zu informieren im aktuellen Dienst. Wenn das Betriebs- und Wartungspersonal die Bereitstellung zu Beginn des Unternehmens durchführt, konzentriert es sich mehr auf die Standardisierung der Online-Umgebung und die Standardisierung der Service-Bereitstellungsmethoden, um Systeme besser zu entwickeln und bereitzustellen und die Service-Architektur, für die sie verantwortlich sind, besser zu steuern.
Sicherheitsprobleme und Prozessprobleme können durch den Einsatz des Systems vollständig gelöst werden. Bleiben Sie in Bezug auf Betrieb und Wartung nicht bei dieser wertlosen und unproduktiven Arbeit.
Was möchten Sie der (Betriebs- und Wartungs-)Branche am liebsten sagen? Warum?
„Physik existiert nicht, aber die Physik, von der wir denken, dass sie nicht existiert.“ Wie viele Menschen im Bereich Betrieb und Wartung träumen von AIOps und NOOps, also müssen sie diese Branche entweder selbst töten , oder in dieser Branche getötet werden.
Wie entscheiden Sie bei der Werkzeugauswahl, ob Sie es selbst entwickeln, Open Source verwenden oder kommerzielle Produkte verwenden?
Verwenden Sie Open Source, wenn Sie über die nötigen Fähigkeiten und Zeit verfügen, und verwenden Sie kommerzielle Produkte, wenn Ihre Fähigkeiten und Zeit begrenzt sind. Wenn Sie Geld und Muße haben und sehr eingebildet sind, können Sie es mit dem Selbststudium versuchen.
Ist Ihr Unternehmen auch eine Multi-Cloud-Architektur? Auf welche Funktionen sollten sich Ihrer Meinung nach Cloud-Anbieter in Multi-Cloud-Szenarien verlassen und welche sollten intern entwickelt werden?
Wir sind eine Multi-Cloud-Architektur. Dedizierte Leitungen oder Datenübertragungsmöglichkeiten müssen selbst aufgebaut werden. Auf Multi-Cloud basierende öffentliche Funktionen können auch von uns selbst erstellt werden, z. B. Überwachungssysteme, Datensicherungssysteme, Bereitstellungssysteme, Mikroservice-Kernkomponenten usw., und der Rest kann den Cloud-Anbietern überlassen werden.
Was ist Ihr unvergesslichster Misserfolg? Welche Inspiration hat es für Sie?
Nach so vielen Jahren des Betriebs und der Wartung bin ich auf zu viele seltsame Ausfälle gestoßen, und die Grundursache liegt jenseits Ihrer Vorstellungskraft. Man kann nur sagen, dass Ausfälle schwer zu vermeiden sind und wir nur versuchen können, die Häufigkeit, den Auswirkungsbereich und die Auswirkungszeit von Ausfällen zu reduzieren.
Ihre Leistung ist also nicht die Anzahl der Fehler und Fehlerstufen, sondern die Auswirkung von Fehlern, die Fehlerreaktion, die Wiederherstellungszeit usw.
Haben Sie angesichts der sich schnell entwickelnden Basistechnologien Ratschläge zur Karriereplanung für Betriebs- und Wartungspersonal, das gerade in die Branche eingestiegen ist, und für diejenigen, die schon lange in der Branche sind?
Es ist ziemlich extrem~ Für diejenigen, die gerade erst in die Branche eingestiegen sind, wird empfohlen, so schnell wie möglich den Beruf zu wechseln! Für diejenigen, die schon lange in der Branche tätig sind, ist es relativ schwierig, die Karriere in der Technologiebranche zu wechseln, und sie ist stark von Betrieb und Wartung geprägt. Ich habe zu viele Betriebs- und Wartungsmitarbeiter gesehen, die auf andere Technologien umgestiegen sind. Die meisten davon sind Betriebs- und Wartungspositionen in der Forschung und Entwicklung sowie Betriebs- und Wartungsproduktmanagerpositionen.
Was ist Ihrer Meinung nach der Unterschied zwischen traditionellem Betrieb und Wartung und SRE? Welcher Gedanke stand hinter der Transformation Ihres Teams?
Wir schreiben bereits das Jahr 2023. Über dieses Thema zu sprechen ist, als würde man rückwärtsgehend eine NOC-Überwachungsaufgabe für den Betrieb und die Wartung des Internets einrichten.
Wenn Sie immer noch darüber nachdenken, ob Sie SRE umwandeln sollen, wie Sie SRE umwandeln sollen und welche Änderungen es bei SRE gibt, genau wie in der 5g-Ära, wenn Sie immer noch darüber nachdenken, ob Sie 2g oder 3g verwenden sollen ... werden Sie durch das eliminiert mal.
Haben Sie das Gefühl, dass es abrupt zu Ende geht? Haha, dies ist die erste Ausgabe des „Betriebs- und Wartungsforums“. Je mehr unterschiedliche Meinungen es gibt, desto interessanter ist es und desto mehr kann es zum Nachdenken anregen Offenheit, hören Sie sich die Meinungen von Hunderten von Denkrichtungen an. Bis zum nächsten Mal!
Das obige ist der detaillierte Inhalt vonQuelle: Betriebs- und Wartungsgeometrie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!