Science des données appliquée sur les violations de données + Bonus-Tutoriel Python-php.cn

Bonjour !

Aujourd'hui, j'ai décidé d'intégrer deux domaines : la science des données et la cybersécurité.

Suivez et vous verrez de quoi j'écris.
Applied Data Science on data breaches + Bonus

Qu'ai-je fait ?

J'ai effectué une analyse du nombre d'attaques en fonction du type d'organisation.
J'ai téléchargé l'ensemble de données depuis Kaggle.
Ensuite, j'ai commencé à travailler sur les données en utilisant Jupyter Lab et Python.

Le cahier est destiné à des exercices, pour tester et observer ou jouer avec des données.

Applied Data Science on data breaches + Bonus

Comme d'habitude, j'ai avant tout importé les données. Ensuite, j'ai chargé et nettoyé l'ensemble de données.

Le nettoyage des données est une étape qui pourrait être effectuée plusieurs fois, car l'EDA (Exploratory Data Analysis) est un processus itératif et non séquentiel. Par conséquent, plus tard, j'ai continué ce processus, afin de découvrir des informations significatives.

Quelques mots sur les statistiques

J'ai choisi un échantillonnage aléatoire simple den=40pour savoir quelle organisation est la plus sujette aux cyberattaques, en fonction du nombre d'attaques. Un échantillonnage aléatoire simple signifie que chaque membre de la population a une chance égale d'être sélectionné.

L'hypothèse

Hypothèse nulle (H0) : Il n'y a pas de différence significative dans le nombre de cyberattaques subies par différents types d'organisations.
Hypothèse alternative (H1) : le nombre de cyberattaques diffère considérablement selon les différents types d'organisations.

Selon le nombre maximum d'attaques, il a été conclu que lesecteur de la santéest plus sujet, avec 6 attaques. A l'inverse, lebancairea connu le plus faible nombre d'attaques, soit 1.

Au final, j'ai effectué un test Shapiro-Wilk, pour vérifier la normalité de la distribution de l'ensemble de données. L'hypothèse nulle a été rejetée, de sorte que les données ne semblaient pas distribuées normalement. J'ai appliqué le test de Kruskal-Wallis, dont je n'ai pas réussi à rejeter l'hypothèse nulle, ce qui signifie qu'il n'y a pas de différence significative entre les groupes. En termes plus simples, cela signifie qu'il n'y avait pas suffisamment de preuves pour affirmer avec certitude qu'un type d'organisation est plus sujet aux cyberattaques que l'autre.

Limites et considérations futures

Aucun niveau de confiance, une marge d'erreur et un intervalle de confiance n'ont été définis. La taille de l’échantillon était petite, il est donc plus difficile de détecter des différences statistiquement significatives. À l'avenir, la sélection d'un échantillon respectera ces étapes et un échantillon plus large sera envisagé.

Vous pouvez retrouverl'intégralitédu travail sur ma page GitHub. ?

BONUS ?

Comme je l'ai précisé, cet article a unbonus. La combinaison de la science des données et de la cybersécurité continue : j'ai créé un article pour TryHackMe room Attacktive Directory !
On pourrait dire, à première vue, que ces sujets n’ont aucun rapport. Eh bien, il s'agit en fait d'une démonstration decommentune violation pourrait avoir lieu ! ? Parce que les violations de données apparaissentd'une manière ou d'une autreet pourune raison quelconque.

Curieuse ? Eh bien, consultez mon article sur ma page GitHub.

Qu'en pensez-vous ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!