Pengenalan | SRE ialah singkatan Kejuruteraan Kebolehpercayaan Tapak Ia merupakan model operasi dan penyelenggaraan baharu yang berkembang daripada proses jaminan teknikal produk dalaman Google dan mentakrifkan skop tanggungjawab jawatan baharu. Berbeza daripada model operasi dan penyelenggaraan tradisional, SRE menekankan sistem automatik dan menyokong pembangunan beberapa alatan operasi dan penyelenggaraan automatik berasaskan senario melalui kaedah kejuruteraan perisian untuk menggantikan operasi berulang dan manual. Dalam Sembang ini, kami akan memperkenalkan evolusi automasi SRE melalui beberapa kes amalan SRE asing. |
Kandungan termasuk:
Nilai sistem automatik kepada SRE
Evolusi sistem automasi;
Kes aplikasi automasi SRE syarikat Internet asing;
Amalan automasi dalam bidang operasi dan penyelenggaraan domestik.
SRE ialah singkatan daripada Site Reliability Engineering Ia adalah perkataan atau jawatan yang baru ditakrifkan yang berasal dari syarikat Internet asing. Dalam era model pentadbir sistem tradisional, kami memanggil operasi dan penyelenggaraan peranan ini, dan di luar negara ia dipanggil Operasi.
Naib Presiden Google SRE ialah Ben Treynor Apabila dia menyertai syarikat itu pada tahun 2003, tugas pertamanya ialah membentuk "pasukan operasi dan penyelenggaraan" 7 orang. Tetapi dia tidak lama kemudian mendapati bahawa berdasarkan kelajuan peningkatan dalam mesin Google, model operasi dan penyelenggaraan tradisional tidak dapat memenuhi keperluan operasi dan penyelenggaraan yang boleh dipercayai dengan cepat. Memandangkan beliau sendiri adalah seorang pembangun perisian kanan, beliau membentuk pasukan operasi dan penyelenggaraan ini seperti pasukan R&D. Kami telah merekrut ramai jurutera R&D yang mempunyai keupayaan pembangunan dan sedikit pengetahuan tentang pengurusan sistem Perkara yang paling penting ialah mereka tidak menyukai kerja yang berulang. Mereka mengukuhkan beberapa amalan terbaik, kaedah, proses dan kaedah ke dalam kod, dan menggunakan kaedah ini untuk mengatasi pengembangan skala dan peningkatan kerumitan.
2 Nilai sistem automasi kepada SREAktiviti SRE biasa dibahagikan kepada empat bahagian: kejuruteraan perisian, kejuruteraan sistem, trivia, dan beban proses. Antaranya, kita dapat melihat bahawa terdapat jenis kerja yang berkaitan secara langsung dengan perkhidmatan operasi dan penyelenggaraan harian, tetapi ia ditakrifkan sebagai kerja yang tidak cekap dalam SRE, dan Google masih menggunakan perkataan khas - Toil untuk menerangkannya.
Trivia ialah kerja manual, berulang dan taktikal dalam perkhidmatan operasi dan penyelenggaraan. Pertumbuhannya adalah linear dengan pertumbuhan perkhidmatan. Bahagian kerja ini boleh diautomasikan. Google telah mencadangkan secara terbuka bahawa SRE harus memastikan bahawa sekurang-kurangnya 50% masa mereka dibelanjakan untuk projek kejuruteraan perisian, kerana jika tidak dikawal, perkara remeh akan menjadi semakin banyak dan dengan cepat mengisi kebanyakan masa kakitangan SRE. Kerja-kerja mengurangkan perkara remeh dan meluaskan skala perkhidmatan ialah E (Kejuruteraan) dalam SRE.
Daripada video ini kita dapat melihat bahawa nilai automasi kepada SRE terutamanya datang dari dua aspek: prestasi dan kecekapan. Apabila bercakap tentang automasi, perkara pertama yang difikirkan oleh ramai orang ialah peningkatan kecekapan Malah, berbanding dengan hanya meningkatkan kecekapan, kakitangan SRE menekankan keseimbangan antara prestasi sistem dan kelajuan dan fleksibiliti. Automasi memastikan prestasi sistem dengan menghapuskan ketidakkonsistenan yang disebabkan oleh pelaksanaan manual dalam operasi dan memastikan "pelaksanaan prosedur yang konsisten dengan skop yang jelas dan langkah yang diketahui".
Sistem automasi boleh menyediakan platform berskala dan boleh digunakan secara meluas. Platform ini boleh memusatkan masalah, mengendalikan ralat sistem pada skala besar, dan menjalankan tugas dengan lebih berterusan dan lebih kerap daripada yang boleh dilakukan oleh manusia. Dan kerana platform boleh mendedahkan penunjuk prestasinya sendiri, ia juga boleh membantu kami menemui butiran yang tidak mudah dilihat dalam proses sebelumnya. Sudah tentu, asas platformisasi terletak pada reka bentuk dan pelaksanaan yang betul. Lebih mudah bagi kita untuk memahami peningkatan yang dibawa oleh automasi kepada kecekapan. Walaupun kita sering membandingkan dan menganalisis usaha dan masa yang dihabiskan untuk menulis program automatik dan bahagian yang disimpan dengan membatalkan kerja manual, kita harus melihat bahawa sebaik sahaja automasi dilaksanakan, operasi tertentu akan dipisahkan daripada operator tertentu, jadi apabila kita meneruskan Apabila diukur, masa dan usaha yang dijimatkan oleh automasi harus terakru kepada semua pengguna.
Seorang SRE yang bertanggungjawab untuk proses dalam talian kluster pusat data Google, Joseph Bironas, pernah berkata: "Jika kami terus menghasilkan proses dan penyelesaian yang tidak boleh diautomatikkan, kami akan terus memerlukan orang untuk melaksanakan penyelenggaraan sistem. Jika kami perlu mengupah orang untuk melakukannya Pekerjaan ini seperti memberi makan kepada mesin dengan darah manusia, peluh dan air mata Ia seperti dunia Matrix tanpa kesan khas tetapi penuh dengan sysadmin yang marah."
3. Evolusi automasiProses automasi Google SRE telah melalui peringkat di atas. Peringkat pertama ialah peringkat bukan automasi yang bergantung sepenuhnya pada operasi manual, dan kemudian menggunakan skrip automasi khusus sistem yang diselenggara secara luaran untuk beroperasi Automasi sistem khusus secara beransur-ansur berkembang menjadi automasi sistem umum, dan kemudian menggantikan sistem automasi yang diselenggara secara luaran dengan automasi yang diselenggara secara dalaman. Sistem automatik akhirnya berkembang menjadi sistem automatik yang digabungkan ke dalam platform operasi dan penyelenggaraan dan tidak memerlukan pencetus manual.
4 kes aplikasi automasi SRE syarikat Internet asingSistem pengurusan sumber Google Borg ialah sistem keluaran aplikasi automatik biasa yang telah digunakan oleh Google SRE untuk sekian lama. Mengapa pengurusan sumber sangat penting? Oleh kerana skalanya terlalu besar, kos operasi menjadi satu-satunya penghalang kepada evolusi. Secara teknikalnya, sistem pengurusan sumber bersatu adalah sangat sukar untuk dilaksanakan, dan kualiti infrastruktur menentukan keupayaan sistem ini. Terutamanya dalam persekitaran yang diedarkan, keperluan untuk pelayan fizikal dalam senario perniagaan yang berbeza tidak betul-betul sama. Prasyarat untuk Borg Google mencapai pengurusan sumber bersatu ialah sokongan teknologi teras seperti GoogleFS, BigTable, Chubby, GSLB, dll. SRE ialah pengguna sistem ini dan sentiasa memberikan maklum balas dan menambah baik penggunaan sistem Borg untuk kebolehpercayaan sistem . Keperluan, setakat ini Borg masih menjadi sistem penerbitan aplikasi yang digunakan secara dalaman oleh Google.
Pertama sekali, sistem Borg ialah seni bina sistem berlapis sepenuhnya. Daripada sistem fail paling asas kepada pemuatan muatan teratas, setiap lapisan tindanan teknologi adalah unik dalam Google Kelebihan ini ialah pengalaman boleh dikumpul dan digunakan semula. Seni bina sistem perusahaan domestik juga akan melalui struktur organisasi hierarki dalam proses pembangunan Dengan mengetepikan faktor manusia, banyak hierarki dibina dengan menggabungkan pelbagai sistem. Di permukaan, kami telah mengurangkan kos, tetapi sebenarnya kami telah meningkatkan kos penyelenggaraan tenaga kerja. Pada ketika ini, kemajuan sistem asing boleh diketepikan Apakah yang perlu kita lakukan apabila memilih teknologi? Bercakap daripada pengalaman, sistem satu lapisan yang terdiri daripada berbilang sistem sumber terbuka yang dikongsi oleh rakan sebaya ialah kaedah pintasan dengan kesan jangka pendek yang jelas. Sebaik sahaja perniagaan perusahaan berkembang dengan pantas, setiap pemfaktoran semula adalah alat yang memusnahkan untuk menggulingkan dan memulakan semula. Daripada pengalaman saya dalam pelbagai sistem perusahaan, besar dan kecil, saya amat memahami dinamik perubahan ini. Dalam SRE, idea untuk menukar alat bukanlah untuk menggantikan alat sumber terbuka lama dengan alat sumber terbuka baharu, tetapi keperluan kebolehpercayaan kami harus memudahkan bilangan pilihan alat, dan benar-benar mempertimbangkan keperluan kami sendiri atas dasar ini akhir, kita mesti Jalan ke sistem automasi yang dibangunkan sendiri.
Kedua, teknologi infrastruktur sistem Borg cukup maju bukankah SRE agak berlebihan? Jelas sekali, kemajuan teknologi tidak dapat menggantikan metodologi SRE. Konsep DevOps yang paling popular dalam industri pada masa ini tidak menyertakan lebih banyak penerangan tentang kos dan kebolehpercayaan Ia memfokuskan pada pelbagai amalan seperti automasi dan meningkatkan produktiviti. Amalan ini tidak dapat menyelesaikan isu teras pembangunan mampan senario perniagaan, iaitu semak dan imbang antara kebolehpercayaan perniagaan dan kawalan kos. Kaedah SRE adalah untuk mendapatkan faedah perniagaan maksimum pada kos terendah. Oleh itu, jawatan SRE merekrut jurutera operasi dan penyelenggaraan sistem yang boleh menulis kod Jika anda hanya melakukan operasi dan penyelenggaraan, anda pasti tidak akan dapat mengekalkan pembangun tulen. Oleh itu, kita harus meningkatkan latitud kognitif kita dan menyelesaikan sistem perniagaan dalaman semasa perusahaan dari perspektif kejuruteraan perisian. Daripada pengalaman peribadi pengarang, kami adalah syarikat teknologi yang membangunkan produk, termasuk sistem ujian, sistem pengurusan projek, sistem kawalan proses, sistem pelepasan, dsb. Tidak kira betapa besar atau kecil syarikat anda, anda akan memerlukannya. Tanpa pemandu SRE, kami akan memilih alat untuk mengisi jurang. Walau bagaimanapun, sistem tidak berkaitan antara satu sama lain, dan tiada siapa secara dalaman boleh benar-benar memacu lelaran perkara ini. Akhirnya, kami membiarkan operasi dan penyelenggaraan atau pembangunan hanya menyelesaikan masalah ini.
Ketiga, SRE boleh dilihat di mana-mana di syarikat Internet asing, tetapi terdapat sangat sedikit jawatan atau penyebaran idea sedemikian di China Adakah ini disebabkan oleh perbezaan budaya? Penulis percaya bahawa dalam proses evolusi berterusan sistem operasi dan penyelenggaraan domestik, kelajuan pembangunan pastinya lebih perlahan daripada tahap kognitif semasa di negara asing. Tetapi dengan kebangkitan Taobao, jabatan sokongan teknikal Alibaba sebenarnya adalah pengesahan terbaik SRE domestik. Faedah SRE sangat jelas, tetapi ia akan menjadi sangat sukar untuk mempromosikan syarikat di kalangan perusahaan kecil dan sederhana. Masalah utama ialah sistem pembekal perkhidmatan teknikal asing sangat baik Apabila perusahaan kecil dan sederhana ingin membuat beberapa transformasi SRE, mereka boleh mendapatkan penyelesaian daripada sejumlah besar penyedia perkhidmatan teknikal. Dan syarikat sanggup membelanjakan sebahagian daripada kos untuk proses pra-penyelidikan teknologi tersebut. Syarikat domestik mengharapkan untuk membeli teknologi matang dan tidak bersedia untuk melabur tenaga dalam infrastruktur. Kawalan kos juga berdasarkan pertimbangan kos buruh, dan sukar bagi penyedia teknologi untuk mempunyai ruang untuk beroperasi. Oleh itu, di bawah keadaan yang sukar, pembangunan perniagaan pengkomputeran awan boleh memainkan peranan pelincir. Dalam erti kata lain, ekonomi teknologi yang dikongsi mungkin menjadi cara untuk SRE dilaksanakan di China. Contohnya, Shuren Cloud, tempat penulis bekerja, adalah platform pengurusan aplikasi ringan yang melaksanakan konsep SRE Melalui kerjasama dengan perusahaan, ia melengkapkan pembinaan platform yang diperlukan oleh perusahaan. Dalam proses kerjasama ini, sistem yang berkembang berfungsi sebagai nilai tambah dan dipromosikan oleh Shuren Cloud Platform di perusahaan lain untuk mencapai situasi menang-menang. Berdasarkan keputusan, perusahaan telah mencapai keputusan amalan SRE yang berjaya, dan penyedia perkhidmatan teknikal telah mendapat peluang untuk mengamalkan SRE.
Keempat, SRE menggunakan alatan dengan baik. Perubahan dalam cara kita menyelesaikan masalah, daripada penyelesaian masalah kepada analisis masalah yang mendalam, dan memberi model dan senarai semak untuk menyelesaikan masalah. Contohnya, SRE Netflix menyediakan senarai semak kepada SRE apabila menyelesaikan prestasi sistem Linux:
5. Amalan automasi dalam bidang operasi dan penyelenggaraan domestikTerhad kepada lelaran pesat pembangunan dalam bidang operasi dan penyelenggaraan domestik, penulis akan memecahkan status semasa amalan automasi daripada tiga bidang yang paling dibimbangkan sebagai titik kejayaan.
1. Pemantauan dan penggera
Terdapat banyak jenis alat pemantauan dan penggera domestik, tetapi terdapat sangat sedikit penyelesaian popular yang boleh dilaksanakan. Yang paling biasa digunakan oleh perusahaan tradisional ialah Zabbix Selain itu, Open-Falcon, alat pemantauan peringkat perusahaan Internet sumber terbuka yang dibangunkan oleh Xiaomi di China, juga merupakan pilihan. Tetapi dalam kedua-dua senario, tidak ada cara untuk mengelakkan soalan yang sangat langsung, iaitu cara menggunakan laluan terpendek untuk menganalisis masalah anda dan menyelesaikan masalah sebenar dalam senario perniagaan. Dari perspektif pemantauan, terdapat pelbagai dimensi tahap sistem, tahap perniagaan dan tahap perkhidmatan. Apabila menangani masalah dari perspektif SRE, perancangan kapasiti adalah langkah pertama, bukannya merancang berdasarkan pelbagai ketinggalan sistem berdasarkan pengalaman priori. Jadi dari awal, alat bukanlah isu yang paling sukar. Ambil Zabbix sebagai contoh Dimensi yang boleh dipantau ialah kesihatan sistem, QPS pangkalan data, dan ingatan Redis. Tetapi jika laman web menjadi perlahan, tiada apa yang boleh saya lakukan dari perspektif pemantauan. Analisis pautan penuh diperlukan untuk menentukan masalah dan menyelesaikannya. Jika kami mengikuti pengalaman DevOps, kami tidak mungkin bertanya soalan seperti ini, tetapi apabila menghadapi masalah, cara menukar pelayan secara automatik atau mengembangkan kapasiti secara automatik untuk menyelesaikan masalah. Kawalan kos tidak boleh dikawal dalam senario DevOps Pengurus hanya boleh memaksa kos belanjawan, dan huluan mahupun hiliran tidak dapat memahami sepenuhnya kos operasi perniagaan.
2. Pemantauan log
Pemantauan log domestik menggunakan tindanan teknologi ELK (Elasticsearch, Logstash, dan Kibana) secara meluas. Tindanan teknologi ini sangat popular dan juga telah menyelesaikan sejumlah besar masalah log dalaman dalam perusahaan. Tetapi dalam senario sebenar, pengurusan log perniagaan masih sangat menyakitkan. Satu ialah pertanyaan log masa nyata, dan yang kedua ialah pengagregatan log sejarah. Bagaimana untuk menyediakan penggunaan pertanyaan log dengan berkesan? Pasukan operasi dan penyelenggaraan Qunar telah berkongsi kaedah Dengan menyediakan perkhidmatan ELK atas permintaan untuk jabatan dalaman di Apache Mesos, pembangun boleh menanyakan log perniagaan mereka sendiri dan menganalisis log perniagaan mereka sendiri pada bila-bila masa. log. Selepas pertanyaan selesai, contoh perkhidmatan ELK dimusnahkan secara automatik. Penulis percaya pendekatan inovatif ini sebenarnya adalah amalan pemikiran SRE.
3. Sistem integrasi dan pelepasan berterusan
Alat yang paling biasa digunakan untuk operasi dan penyelenggaraan domestik ialah menggunakan Jenkins untuk melengkapkan penyepaduan dan pelepasan berterusan. Tetapi kita sering menghentikan latihan mendalam selagi kita boleh menggunakan Jenkins. Dari perspektif SRE, kami mula-mula menganalisis apakah titik kesakitan perniagaan penyepaduan berterusan, kerana semasa proses penyepaduan berterusan, sistem ujian akan disambungkan. Oleh itu, penulis percaya bahawa tujuan integrasi berterusan adalah untuk meningkatkan kualiti produk secara berterusan. Dengan mengingati matlamat teras, perkara yang kita kawal bukan hanya bagaimana kerja Jenkins diuruskan, tetapi sama ada kecekapan ujian boleh dipertingkatkan dan masa penyepaduan boleh dipendekkan. Mewujudkan senarai matlamat dan kemudian memasukkannya ke dalam proses penambahbaikan SRE pasti akan menghasilkan keputusan yang berbeza. Penerbitan berterusan adalah topik lain Sebenarnya, masalahnya ialah pengguna tidak memahami sepenuhnya penerbitan. Keluaran termasuk keluaran skala kelabu, keluaran ujian, keluaran berguling, keluaran balik dan senario lain. Dan setiap senario harus boleh diterbalikkan. Bagaimana untuk menyelesaikan masalah ini? Jenkins sahaja tidak dapat menyelesaikan masalah ini Anda memerlukan alat lanjutan untuk memenuhinya, seperti bantuan satu set platform pengurusan aplikasi yang ringan.
6 Berdasarkan sejarah pembangunan industri, penyeragaman teknologi ialah proses evolusi yang tidak dapat dielakkan, dan automasi operasi dan penyelenggaraan sebenarnya merupakan manifestasi penyeragaman. Bermula dari langkah pertama bermula dengan SRE, tanggungjawab kerja harus diselesaikan dan diselesaikan, dan masalah yang perlu diselesaikan harus didokumentasikan ke dalam senarai semak. Memudahkan pelaksanaan pantas dalam perniagaan. Langkah seterusnya adalah untuk menggambarkan penunjuk dan senario perniagaan ini untuk membantu syarikat mengurangkan kos operasi dan mengukur matlamat sistem perkhidmatan. Bagi perusahaan yang berkebolehan, antara muka pelbagai sumber akan disatukan semasa proses pembangunan Proses ini akan menjadi sangat panjang Dari pengalaman penulis, ia harus diulang dalam langkah-langkah kecil dan dilaksanakan dengan teliti mengikut hasil sebenar. Kerana platformisasi tanpa mengira kos hanyalah pencapaian politik yang gemilang dan tidak menyelesaikan masalah kos secara berkesan. Bentuk automasi yang paling tinggi pastinya adalah sistem pintar, tetapi dari sudut pandangan penulis, mungkin semua orang telah menonton terlalu banyak filem fiksyen sains, yang telah mencairkan tujuan kejuruteraan perisian, iaitu menggunakan kaedah saintifik untuk memaksimumkan faedah perisian. Tetapi ia pastinya bukan sistem penyembuhan diri yang sangat pintar. Pada pendapat penulis, sistem kecerdasan buatan ini adalah satu lagi dimensi kejuruteraan perisian, sama seperti perbandingan antara telefon bimbit Nokia dan telefon bimbit Apple Model SRE menyelesaikan cara menggunakan rantai alat semasa untuk memaksimumkan nilai mudah alih Nokia telefon, bukannya digantikan dengan sistem kecerdasan buatan. Mungkin, suatu hari nanti, SRE akan terus bersara dan membiarkan robot menggantikan keseluruhan sistem operasi dan penyelenggaraan, tetapi SRE akhirnya akan meninggalkan kesan mendalam pada sejarah teknologi.Atas ialah kandungan terperinci Aplikasi evolusi automatik dalam SRE. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!