Science des données appliquée sur les violations de données + Bonus

王林
Libérer: 2024-08-29 06:32:05
original
115 Les gens l'ont consulté

Bonjour !

Aujourd'hui, j'ai décidé d'intégrer deux domaines : la science des données et la cybersécurité.

Suivez et vous verrez de quoi j'écris.
Applied Data Science on data breaches + Bonus

Qu'ai-je fait ?

J'ai effectué une analyse du nombre d'attaques en fonction du type d'organisation.
J'ai téléchargé l'ensemble de données depuis Kaggle.
Ensuite, j'ai commencé à travailler sur les données en utilisant Jupyter Lab et Python.

Le cahier est destiné à des exercices, pour tester et observer ou jouer avec des données.

Applied Data Science on data breaches + Bonus

Comme d'habitude, j'ai avant tout importé les données. Ensuite, j'ai chargé et nettoyé l'ensemble de données.

Le nettoyage des données est une étape qui pourrait être effectuée plusieurs fois, car l'EDA (Exploratory Data Analysis) est un processus itératif et non séquentiel. Par conséquent, plus tard, j'ai continué ce processus, afin de découvrir des informations significatives.

Quelques mots sur les statistiques

J'ai choisi un échantillonnage aléatoire simple den=40pour savoir quelle organisation est la plus sujette aux cyberattaques, en fonction du nombre d'attaques. Un échantillonnage aléatoire simple signifie que chaque membre de la population a une chance égale d'être sélectionné.

L'hypothèse

  1. Hypothèse nulle (H0) : Il n'y a pas de différence significative dans le nombre de cyberattaques subies par différents types d'organisations.

  2. Hypothèse alternative (H1) : le nombre de cyberattaques diffère considérablement selon les différents types d'organisations.

Selon le nombre maximum d'attaques, il a été conclu que lesecteur de la santéest plus sujet, avec 6 attaques. A l'inverse, lebancairea connu le plus faible nombre d'attaques, soit 1.

Au final, j'ai effectué un test Shapiro-Wilk, pour vérifier la normalité de la distribution de l'ensemble de données. L'hypothèse nulle a été rejetée, de sorte que les données ne semblaient pas distribuées normalement. J'ai appliqué le test de Kruskal-Wallis, dont je n'ai pas réussi à rejeter l'hypothèse nulle, ce qui signifie qu'il n'y a pas de différence significative entre les groupes. En termes plus simples, cela signifie qu'il n'y avait pas suffisamment de preuves pour affirmer avec certitude qu'un type d'organisation est plus sujet aux cyberattaques que l'autre.

Limites et considérations futures

Aucun niveau de confiance, une marge d'erreur et un intervalle de confiance n'ont été définis. La taille de l’échantillon était petite, il est donc plus difficile de détecter des différences statistiquement significatives. À l'avenir, la sélection d'un échantillon respectera ces étapes et un échantillon plus large sera envisagé.

Vous pouvez retrouverl'intégralitédu travail sur ma page GitHub. ?

BONUS ?

Comme je l'ai précisé, cet article a unbonus. La combinaison de la science des données et de la cybersécurité continue : j'ai créé un article pour TryHackMe room Attacktive Directory !
On pourrait dire, à première vue, que ces sujets n’ont aucun rapport. Eh bien, il s'agit en fait d'une démonstration decommentune violation pourrait avoir lieu ! ? Parce que les violations de données apparaissentd'une manière ou d'une autreet pourune raison quelconque.

Curieuse ? Eh bien, consultez mon article sur ma page GitHub.


Qu'en pensez-vous ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:dev.to
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!