Sains Data Gunaan mengenai pelanggaran data + Bonus-Tutorial Python-php.cn

Helo!

Hari ini saya memutuskan untuk membenamkan dua domain: sains data dan keselamatan siber.

Ikuti bersama dan anda akan melihat perkara yang saya tulis.
Applied Data Science on data breaches + Bonus

Apa yang saya buat?

Saya melakukan analisis ke atas bilangan serangan berdasarkan jenis organisasi.
Saya memuat turun set data daripada Kaggle.
Kemudian, saya mula mengusahakan data menggunakan Jupyter Lab dan Python.

Buku nota adalah untuk tujuan latihan, untuk menguji dan memerhati- atau bermain dengan- data.

Applied Data Science on data breaches + Bonus

Seperti biasa, yang pertama dan terpenting saya mengimport data. Kemudian, saya memuatkan dan membersihkan set data.

Membersihkan data ialah langkah yang boleh dilakukan lebih banyak kali, kerana EDA (Analisis Data Penerokaan) ialah proses berulang dan tidak berurutan. Oleh itu, kemudian saya meneruskan proses ini, untuk mendedahkan cerapan yang bermakna.

Sedikit perkataan tentang statistik

Saya memilih pensampelan rawak mudahn=40untuk mengetahui organisasi mana yang lebih terdedah kepada serangan siber, berdasarkan bilangan serangan. Persampelan rawak mudah bermakna setiap ahli populasi mempunyai peluang yang sama untuk dipilih.

Hipotesis

Hipotesis Nol (H0): Tiada perbezaan yang ketara dalam bilangan serangan siber yang dialami oleh pelbagai jenis organisasi.
Hipotesis Alternatif (H1): Bilangan serangan siber berbeza dengan ketara merentas pelbagai jenis organisasi.

Menurut bilangan maksimum serangan, disimpulkan bahawa industripenjagaan kesihatanlebih terdedah, dengan 6 serangan. Sebaliknya,perbankanmempunyai bilangan serangan paling rendah, iaitu 1.

Akhirnya, saya melakukan ujian Shapiro- Wilk, untuk menyemak normaliti taburan set data. Hipotesis Null telah ditolak, jadi data tidak kelihatan bertaburan normal. Saya menggunakan ujian Kruskal- Wallis, yang mana saya gagal menolak Hipotesis Null- bermakna tiada perbezaan yang signifikan antara kumpulan. Dalam istilah yang lebih mudah, ini bermakna tiada bukti yang mencukupi untuk mengatakan dengan yakin bahawa satu jenis organisasi lebih terdedah kepada serangan siber berbanding yang lain.

Had dan pertimbangan masa depan

Tiada tahap keyakinan, margin ralat dan selang keyakinan ditetapkan. Saiz sampel adalah kecil, oleh itu adalah lebih sukar untuk mengesan perbezaan ketara secara statistik. Pada masa hadapan, pemilihan sampel akan mematuhi langkah-langkah ini dan sampel yang lebih besar akan dipertimbangkan.

Anda boleh menemuikeseluruhankerja pada halaman GitHub saya. ?

BONUS ?

Seperti yang saya nyatakan, artikel ini mempunyaibonus. Gabungan sains data dan keselamatan siber diteruskan: Saya membuat penulisan untuk Direktori Attacktive bilik TryHackMe!
Seseorang boleh mengatakan, pada pandangan pertama, bahawa topik ini tidak berkaitan. Sebenarnya, ini adalah demonstrasibagaimanapelanggaran boleh berlaku! ? Kerana pelanggaran data kelihatanentah bagaimanadan atassebab tertentu.

Ingin tahu? Baik, semak penulisan saya daripada halaman GitHub saya.

Apakah pendapat anda?

Atas ialah kandungan terperinci Sains Data Gunaan mengenai pelanggaran data + Bonus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!