Nota editor: Boss Jing adalah bos pasukan saya semasa saya menyertai Baidu pada tahun 2011. Dia seorang veteran tegar Tidak mudah untuk merebut peluang ini daripada pembaca. Encik Jing mempunyai sifat bebas dan mudah, dan jenaka dan kutukannya semuanya ditulis, dan prinsipnya mudah difahami. Berikut ialah isu pertama "Forum Operasi dan Penyelenggaraan" yang rendah dan peringkat tinggi, mari mulakan!
Pengenalan tetamu
Jing Yuan, pertama dari kiri, bekas arkitek operasi dan penyelenggaraan Baidu, bekas Xiaomi Orang yang bertanggungjawab ke atas operasi dan penyelenggaraan, bekas Meicai CIO
Sesetengah kakitangan operasi dan penyelenggaraan melaporkan bahawa syarikat itu mengetahui sangat sedikit tentang nilai operasi dan penyelenggaraan. Bagaimana anda menerangkan dengan jelas nilai operasi dan penyelenggaraan kepada syarikat ketika itu?
Pertama sekali, anda perlu menerangkan dengan jelas tanggungjawab kerja operasi dan penyelenggaraan (apa yang dilakukan oleh operasi dan penyelenggaraan, apa yang dihasilkannya) dan penunjuk utama (mengukur hasil output) dengan syarikat, seperti kerja memfokuskan pada kestabilan, keselamatan, kecekapan, dsb. Kembangkan, operasi dan projek penyelenggaraan yang telah dijalankan, dan cara mempromosikan pencapaian petunjuk utama secara proaktif.
Petunjuk utama termasuk bukan sahaja ketersediaan perkhidmatan, tetapi juga kadar pematuhan sumber pelayan, data kegagalan perkhidmatan (klasifikasi kerosakan, masa tindak balas kerosakan, min masa pemulihan kerosakan, liputan penggera kerosakan), penunjuk keselamatan perkhidmatan, perkhidmatan Berapa lama sumber akan tersedia, dsb.
Contohnya, bina sistem pemantauan yang lengkap:
Pantau penggunaan sumber pelayan, cari pelayan dengan penggunaan substandard, kitar semula atau peruntukkan semula sumber, melalui virtualisasi, kontena, dll. Tingkatkan penggunaan sumber, selesaikan ambang penggera, dan menyeragamkan tahap penggera P0, P1, P2 dan P3 sistem pemantauan menyediakan penggabungan penggera, cadangan kedudukan pintar, pengagregatan penggera aktif dan analisis penggera latitud masa. Memudahkan tindak balas penggera dan lokasi kerosakan yang lebih pantas, menambah baik penggera dan merancang pengasingan masa tindak balas kerosakan, masa pemulihan kerosakan dan perkhidmatan lain, memendekkan masa pemulihan kerosakan purata dan meningkatkan liputan penggera kerosakan
Sesetengah pendapat dalam industri percaya bahawa Peningkatan infrastruktur seperti awan dan Kubernetes akan secara beransur-ansur menghapuskan kedudukan operasi dan penyelenggaraan. Apakah pendapat anda tentang pandangan ini?
Bertahun-tahun yang lalu, slogan pasukan operasi dan penyelenggaraan kami ialah NO Ops, dan blog itu ialah noops.me.
Sudah lama dikatakan bahawa kedudukan operasi dan penyelenggaraan akan beransur-ansur hilang, atau beberapa tanggungjawab pekerjaan akan hilang. Ambil operasi dan penyelenggaraan sistem sebagai contoh Pasukan pengurusan terdahulu memerlukan pasukan 20 orang termasuk jurutera pelayan, jurutera kernel, jurutera rangkaian, jurutera CDN dan jurutera operasi dan penyelenggaraan bilik komputer. Kemudian, dengan pengenalan awan awam, pasukan hanya mempunyai 4 orang, termasuk 1 pentadbir sumber awan, 1 jurutera penjadualan CDN, 1 jurutera rangkaian dan 1 jurutera kernel Mereka hanya perlu mengurus dan menjadualkan sumber dan perkhidmatan yang disediakan oleh ketiga -syarikat parti Boleh.
Dengan populariti K8 dan awan, dan kematangan berterusan kejuruteraan kod R&D, operasi dan penyelenggaraan akan semakin kurang terlibat dalam proses ini. Apabila rangka kerja penempatan matang, untuk menjimatkan tenaga kerja operasi dan penyelenggaraan serta meningkatkan kecekapan penggunaan, penggunaan perkhidmatan peringkat kedua dan ketiga telah diserahkan kepada layan diri R&D.
Dengan perkembangan teknologi dan perubahan zaman, adalah perkara biasa untuk sesuatu kedudukan itu lenyap pada masanya pelarasan dan perancangan menjadi tumpuan pemikiran.
Dalam persekitaran semasa di mana perusahaan beralih ke awan secara besar-besaran, apakah pelarasan yang anda fikir kakitangan operasi dan penyelenggaraan perlu lakukan untuk memenuhi keperluan bakat semasa dengan lebih baik?
Dalam persekitaran awan, jurutera operasi dan penyelenggaraan harus lebih berorientasikan perniagaan dan berorientasikan seni bina, mengembangkan skop perniagaan mereka dan menjadi bakat utama untuk memastikan kestabilan perniagaan. Jika ia masih sama seperti dahulu dan hanya menumpukan pemantauan dan membimbangkan, serta hanya bertanggungjawab terhadap perubahan penggunaan perkhidmatan, maka ia pasti akan dihapuskan.
Sebaliknya, anda boleh pergi ke arah pengkhususan, menjadi pakar dalam bidang tertentu (pemantauan, data besar, K8, pangkalan data, dll.), dan menjadi pakar R&D operasi dan penyelenggaraan.
Nasihat hidup, cari lebih banyak kerja sampingan, kerja operasi dan penyelenggaraan hanyalah sebahagian kecil daripada kehidupan.
AIOps telah hangat digembar-gemburkan selama beberapa tahun, tetapi buzz jelas menjadi lebih senyap baru-baru ini. Adakah anda fikir perusahaan harus melaksanakan AIOps pada peringkat ini? Apakah isu yang perlu kita ambil perhatian?
Ambil pemantauan pintar sebagai contoh Saya telah melihat banyak copywriting yang menggunakan AI untuk meramalkan kesilapan dan mengesan secara bijak. Saya tidak melihat sebarang kes yang boleh dipercayai setakat ini. Dalam sistem perniagaan Internet di mana perkhidmatan berubah dengan lebih pantas, kebergantungan adalah kompleks, dan terdapat banyak faktor yang mempengaruhi kerosakan, jika benar-benar mungkin untuk mencapai ramalan kesalahan melalui data sejarah. Adalah lebih baik untuk melakukan ramalan gempa bumi ribuan tahun pengumpulan data gempa boleh menghasilkan nilai sosial yang besar.
Prasyarat untuk melakukan AIOps adalah untuk benar-benar memahami AI dan memahami prinsip pembelajaran mesin dan rangkaian saraf. Terdapat sebanyak kecerdasan seperti kecerdasan buatan, dan keupayaan AIOps bukanlah slogan.
Adakah anda fikir keupayaan AI seperti chatGPT akan dapat menyelesaikan masalah dalam industri operasi dan penyelenggaraan pada masa hadapan?
Sebagai contoh, dalam pengurusan kerosakan, berdasarkan peralatan yang rosak, data, penerangan, melalui pangkalan pengetahuan, pangkalan data kesalahan sejarah, dll., cadangan tambahan (suggestbot) untuk kemungkinan kerosakan diberikan
BTW, jika anda sudah boleh bermain dengan chatGPT, laburkan teknologi ini di kawasan lain yang boleh menjana lebih banyak masa dalam bidang operasi dan penyelenggaraan...
Terdapat perdebatan yang tidak berkesudahan dalam banyak syarikat tentang sama ada penggunaan program perniagaan harus diserahkan kepada R&D atau operasi dan penyelenggaraan Apakah pendapat anda tentang isu ini?
Seperti yang dinyatakan sebelum ini, perkhidmatan peringkat kedua dan ketiga kami disediakan sepenuhnya oleh R&D, manakala perkhidmatan peringkat pertama disediakan oleh operasi dan penyelenggaraan dan R&D pula Tujuan utama adalah untuk membiarkan operasi dan penyelenggaraan tahu perkhidmatan semasa Hanya perubahan. Apabila kakitangan operasi dan penyelenggaraan melakukan penempatan pada permulaan syarikat, mereka lebih menumpukan pada menyeragamkan persekitaran dalam talian dan menyeragamkan kaedah penggunaan perkhidmatan, supaya dapat membangun dan menggunakan sistem dengan lebih baik serta mengawal seni bina perkhidmatan yang mereka bertanggungjawab.
Isu keselamatan dan isu proses boleh diselesaikan sepenuhnya dengan menggunakan sistem. Dari segi operasi dan penyelenggaraan, jangan berpaut dengan kerja yang tiada nilai dan tidak terkumpul ini.
Apakah perkara yang paling anda ingin katakan kepada industri (operasi dan penyelenggaraan)? kenapa?
"Fizik tidak wujud, tetapi fizik yang kami fikir mungkin tidak wujud." industri ini atau terbunuh dalam industri ini.
Mengenai pemilihan alat, bagaimana anda memutuskan sama ada untuk membangunkannya sendiri, menggunakan sumber terbuka atau menggunakan produk komersial?
Gunakan sumber terbuka jika anda mempunyai keupayaan dan masa, dan gunakan produk komersial jika keupayaan dan masa anda terhad. Kalau ada duit, riadah dan bongkak sangat, boleh cuba belajar sendiri.
Adakah syarikat anda juga sebuah seni bina berbilang awan? Keupayaan manakah yang anda fikir harus dipercayai oleh vendor awan dalam senario berbilang awan dan keupayaan manakah yang harus dibina secara dalaman?
Kami adalah seni bina berbilang awan. Talian khusus atau keupayaan penghantaran data perlu dibina sendiri. Keupayaan awam berdasarkan berbilang awan juga boleh dibina oleh kami sendiri, seperti sistem pemantauan, sistem sandaran data, sistem penempatan, komponen perkhidmatan mikro teras, dsb., dan selebihnya boleh diserahkan kepada vendor awan.
Apakah kegagalan anda yang paling diingati? Apakah inspirasi yang ada untuk anda?
Selepas bertahun-tahun beroperasi dan menyelenggara, kami telah menghadapi terlalu banyak kegagalan yang pelik, dan puncanya adalah di luar imaginasi anda. Ia hanya boleh dikatakan bahawa kegagalan adalah sukar untuk dielakkan, dan kami hanya boleh cuba mengurangkan kekerapan, kawasan impak dan masa impak kegagalan.
Jadi prestasi anda bukanlah bilangan kegagalan dan tahap kegagalan, tetapi kesan kegagalan, tindak balas kegagalan, masa pemulihan, dsb.
Berdepan dengan perkembangan pesat teknologi asas, adakah anda mempunyai sebarang nasihat perancangan kerjaya untuk kakitangan operasi dan penyelenggaraan yang baru memasuki industri dan mereka yang telah lama berada dalam industri?
Agak melampau~ Bagi mereka yang baru menceburi industri, digalakkan menukar kerjaya secepat mungkin! Bagi mereka yang telah lama dalam industri, agak sukar untuk menukar kerjaya dalam teknologi, dan ia telah dicetak secara mendalam mengenai operasi dan penyelenggaraan. Saya telah melihat terlalu ramai kakitangan operasi dan penyelenggaraan beralih kepada teknologi lain Kebanyakan daripada mereka adalah jawatan R&D operasi dan penyelenggaraan dan pengurus produk operasi dan penyelenggaraan.
Apakah pada pendapat anda perbezaan antara operasi dan penyelenggaraan tradisional dan SRE? Apakah pemikiran di sebalik transformasi pasukan anda?
Sudah 2023. Bercakap tentang topik ini adalah seperti menyediakan tugas pemantauan NOC untuk operasi dan penyelenggaraan Internet, pergi ke belakang.
Jika anda masih mempertimbangkan sama ada untuk menukar SRE, cara mengubah SRE, dan perubahan dalam SRE, sama seperti era 5g, jika anda masih mempertimbangkan untuk menggunakan 2g atau 3g... anda akan dihapuskan mengikut peredaran zaman.
Adakah anda rasa ia akan berakhir secara tiba-tiba? Haha, ini adalah isu pertama "Forum Operasi dan Penyelenggaraan". minda terbuka, dengar pendapat ratusan aliran pemikiran. Jumpa lagi lain kali!
Atas ialah kandungan terperinci Sumber Telaga: Geometri Operasi dan Penyelenggaraan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!