Nota editor: Pada tahun 2023, Komuniti Kadal Naga secara rasmi menubuhkan pakatan operasi dan penyelenggaraan sistem, yang terdiri daripada Akademi Teknologi Maklumat dan Komunikasi, Alibaba Cloud, ZTE, Universiti Fudan, Universiti Tsinghua, Universiti Zhejiang, Yunguan Qiuhao, Chengyun Digital , Yunshan Network, Ia ditaja bersama oleh 12 unit termasuk Inspur Information, Tongxin Software dan China Unicom Software Institute. Artikel ini diterbitkan semula daripada Yun Guan Qiu Hao dan memperkenalkan Kindling-OriginX, ahli Perikatan Operasi dan Penyelenggaraan Sistem, untuk menjana laporan punca kerosakan yang boleh ditafsir secara automatik dengan menggabungkan keupayaan data rangkaian lengkap DeepFlow.
DeepFlow ialah projek sumber terbuka yang memanfaatkan teknologi eBPF untuk menyediakan pemerhatian yang tinggi untuk infrastruktur awan yang kompleks dan aplikasi asli awan. Melalui teknologi eBPF, DeepFlow mengumpul data penjejakan pautan halus, rangkaian dan penunjuk prestasi aplikasi, dengan liputan pautan penuh dan penunjuk prestasi TCP yang kaya. Ciri ini menyediakan pengguna profesional dan pakar rangkaian dengan penyelesaian masalah yang berkuasa dan sokongan lokasi masalah.
Kindling-OriginX ialah produk terbitan punca kerosakan Matlamatnya adalah untuk menyediakan pengguna laporan punca kerosakan yang boleh ditafsirkan, membolehkan pengguna memahami secara langsung punca kerosakan dan dengan proses penaakulan punca untuk mengesahkan. ketepatan punca seks. Kesalahan rangkaian adalah sukar untuk dijelaskan dengan mudah. Tidak cukup dengan hanya memberitahu pengguna segmen rangkaian mana yang mempunyai masalah.
Artikel ini memperkenalkan Kindling-OriginX, yang menggabungkan keupayaan data rangkaian lengkap DeepFlow untuk menjana laporan punca kerosakan yang boleh ditafsir secara automatik.
Suntikan kesalahan simulasi rangkaian tertunda 200ms ke dalam perkhidmatan tempat duduk.
Seterusnya, kami mula-mula menggunakan DeepFlow untuk mengenal pasti kegagalan rangkaian 200ms dan mengambil tindakan yang sepadan.
Langkah 1: Gunakan sistem Trace untuk mengecilkan skop
Dalam persekitaran perkhidmatan mikro, apabila masalah prestasi berlaku pada antara muka, langkah pertama ialah menggunakan sistem penjejakan untuk menyemak pautan yang menyebabkan kelambatan dan memahami prestasi tertentu.
Menggunakan sistem Pengesanan, pengguna boleh mengesan Jejak tertentu dengan tepat. Selepas menganalisis Trace, didapati bahawa masa pelaksanaan perkhidmatan tempat duduk adalah panjang, dan panggilan perkhidmatan konfigurasi yang panjang berlaku pada masa yang sama. Dalam kes ini, penunjuk rangkaian terpaut akan membantu menentukan punca masalah rangkaian.
Langkah 2: Gunakan graf nyalaan DeepFlow untuk menentukan segmen rangkaian yang mana kerosakan berlaku
Masukkan jejak wakil kesalahan ke dalam DeepFlow dalam graf nyalaan, cari prestasi Trace pada peringkat rangkaian, dan kemudian analisis graf nyalaan secara mendalam Jika anda mempunyai pemahaman yang baik tentang graf nyalaan dan mempunyai pengalaman pakar dengan pengetahuan rangkaian, anda boleh menggunakan graf nyalaan mengikut graf nyalaan Analisis manusia mendedahkan bahawa kesalahan ini sepatutnya berlaku pada pemanggil, iaitu perkhidmatan tempat duduk, dan masalah itu berlaku dalam tempoh masa apabila syscall dihantar ke kad rangkaian, itu. ialah, terdapat masalah dalam tempoh rangkaian kontena (yang konsisten dengan suntikan kerosakan).
(graf nyala rangkaian Gambar/DeepFlow)
Langkah 3: Tentukan penunjuk rangkaian yang tidak normal dalam rangkaian kontena
Berdasarkan pengalaman penyelesaian masalah, pengguna perlu menyemak penunjuk rangkaian pod perkhidmatan tempat duduk dan perkhidmatan konfigurasi. Pada masa ini, pengguna perlu melompat ke halaman penunjuk rangkaian peringkat Pod DeepFlow. Melalui halaman ini, pengguna boleh melihat mutasi kelewatan 200ms dalam penubuhan sambungan dan mutasi dalam penunjuk RTT.
(Penunjuk pemantauan tahap Gambar/DeepFlow-pod)
(Penunjuk pemantauan tahap Gambar/DeepFlow-pod)
Langkah 4: Hapuskan kemungkinan faktor gangguan
Mengikut pengalaman, apabila CPU dan lebar jalur hos penuh, kehilangan paket dan kelewatan juga akan berlaku dalam rangkaian maya, jadi perlu menyemak jalur lebar CPU dan tahap nod nod di mana perkhidmatan tempat duduk dan perkhidmatan konfigurasi terletak pada masa itu , pastikan sumber tahap Nod tidak tepu.
Sahkan nod di mana kedua-dua pod terletak melalui arahan k8s, dan kemudian pergi ke halaman pemantauan penunjuk nod DeepFlow untuk menyemak penunjuk yang sepadan. Didapati bahawa bps, pps dan penunjuk lain nod berada dalam lingkungan yang munasabah julat.
(Gambar/Cari nod di mana pod terletak melalui arahan k8s)
(Penunjuk pemantauan tahap nod Gambar/DeepFlow (pelanggan))
(Penunjuk pemantauan tahap nod Gambar/DeepFlow (pelayan))
Memandangkan tiada keabnormalan yang jelas dalam penunjuk rangkaian peringkat nod, akhirnya ditentukan bahawa penunjuk rtt peringkat pod bagi perkhidmatan tempat duduk adalah tidak normal.
Ringkasan penyelesaian masalah manual
Selepas beberapa siri proses penyelesaian masalah, pengguna akhir boleh menyelesaikan masalah, tetapi keperluan berikut dikenakan kepada pengguna:
Pengetahuan rangkaian yang sangat kaya
Pemahaman mendalam tentang graf nyala rangkaian
Mahir menggunakan alatan yang berkaitan
Kindling-OriginX Berdasarkan keperluan pengguna yang berbeza dan senario penggunaan, Kindling-OriginX memproses dan membentangkan data DeepFlow.
Dengan analogi kepada proses penyelesaian masalah manual yang paling mudah, proses penyelesaian masalah menggunakan Kindling-OriginX adalah seperti berikut:
Analisis setiap Jejak secara automatik
Memandangkan kerosakan pada masa ini, setiap Trace dianalisis secara automatik dan Traces yang disenaraikan dikumpulkan mengikut nod kerosakan. Perkhidmatan perjalanan disebabkan oleh kerosakan melata.
Semak laporan punca kerosakan di mana nod kerosakan adalah perkhidmatan tempat duduk
Kesimpulan punca kesalahan:
Untuk sub-permintaan 10.244.1.254:50332->10.244.5.79:15679 penunjuk rtt, terdapat kelewatan kira-kira 200ms.
Taakulan dan pengesahan kesalahan
Memandangkan Kindling-OriginX telah mengenal pasti bahawa terdapat masalah dengan rangkaian di mana perkhidmatan konfigurasi panggilan tempat duduk, ia tidak perlu membentangkan sepenuhnya semua data graf nyala DeepFlow kepada pengguna Ia hanya perlu antara muka dengan DeepFlow dan hanya dapatkan perkhidmatan tempat duduk untuk konfigurasi panggilan- Data yang berkaitan dengan panggilan rangkaian perkhidmatan sudah mencukupi.
Menggunakan perkhidmatan tempat duduk DeepFlow untuk memanggil data perkhidmatan konfigurasi, ia dianalisis secara automatik bahawa rangkaian kontena pod pelanggan mengalami kelewatan sebanyak 201ms.
Kindling-OriginX akan mensimulasikan pengalaman analisis pakar dan mengaitkan lagi penunjuk penghantaran semula DeepFlow dan penunjuk RTT untuk menentukan punca kelewatan dalam perkhidmatan konfigurasi panggilan perkhidmatan tempat duduk.
Kindling-OriginX juga akan menyepadukan penggunaan CPU nod dan penunjuk lebar jalur untuk menghapuskan faktor gangguan.
Kindling-OriginX melengkapkan keseluruhan alasan kesalahan dalam laporan satu halaman, dan setiap sumber data boleh dipercayai dan boleh disahkan.
Kindling-OriginX dan DeepFlow kedua-duanya menggunakan teknologi eBPF dan berusaha untuk menyediakan penyelesaian yang fleksibel dan cekap untuk pengguna dengan keperluan berbeza dalam senario yang berbeza Kami juga berharap untuk melihat kemunculan lebih banyak produk domestik dengan keupayaan pelengkap pada masa hadapan.
DeepFlow boleh menyediakan data asas yang sangat lengkap bagi rangkaian pautan penuh, menjadikan aplikasi asli awan boleh diperhatikan dengan mendalam, dan sangat berguna untuk menyelesaikan masalah rangkaian.
Kindling-OriginX menggunakan eBPF untuk mengumpul penunjuk North Star penyelesaian masalah, algoritma AI dan pengalaman pakar untuk membina enjin penaakulan kesalahan untuk menyediakan pengguna laporan punca yang boleh ditafsirkan.
—— Tamat ——
Atas ialah kandungan terperinci Perikatan Operasi dan Penyelenggaraan Sistem Kadal Naga: Bagaimana Kindling-OriginX menyepadukan data DeepFlow untuk mempertingkatkan penjelasan tentang kerosakan rangkaian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!