Warum Datenvis verwenden?
Wenn Sie mit einer neuen Datenquelle mit einer großen Datenmenge arbeiten müssen, kann es wichtig sein, die Datenvisualisierung zu verwenden, um die Daten besser zu verstehen.
Der Datenanalyseprozess erfolgt meist in 5 Schritten:
- Extrahieren – Rufen Sie die Daten aus einer Tabelle, SQL, dem Web usw. ab.
- Sauber – Hier könnten wir explorative Bilder verwenden.
- Erkunden – Hier verwenden wir explorative Visuals.
- Analysieren – Hier können wir entweder explorative oder erklärende visuelle Elemente verwenden.
- Teilen – Hier finden sich erklärende Bilder.
Arten von Daten
Um ein geeignetes Diagramm für eine bestimmte Maßnahme auswählen zu können, ist es wichtig zu wissen, mit welchen Daten Sie es zu tun haben.
Qualitative bzw. kategoriale Typen
Nominale qualitative Daten
Etiketten ohne Reihenfolge oder Rang, die mit den Artikeln selbst verknüpft sind.
Beispiele: Geschlecht, Familienstand, Menüpunkte
Ordinale qualitative Daten
Labels, die eine Reihenfolge oder Rangfolge haben.
Beispiele: Buchstabennoten, Bewertung
Quantitative, auch numerische Typen genannt
Diskrete quantitative Werte
Zahlen können nicht in kleinere Einheiten aufgeteilt werden
Beispiele: Seiten in einem Buch, Anzahl der Bäume in einem Park
Kontinuierliche quantitative Werte
Zahlen können in kleinere Einheiten aufgeteilt werden
Beispiele: Größe, Alter, Einkommen, Arbeitsstunden
Zusammenfassende Statistik
Numerische Daten
Mittelwert: Der Durchschnittswert.
Median: Der Mittelwert beim Sortieren der Daten.
Modus: Der am häufigsten vorkommende Wert.
Varianz/Standardabweichung: Maße der Ausbreitung oder Streuung.
Bereich: Differenz zwischen den Maximal- und Minimalwerten.
Kategoriale Daten
Häufigkeit: Die Anzahl der Vorkommen jeder Kategorie.
Modus: Die häufigste Kategorie.
Visualisierungen
Sie können sehr schnell Einblicke in eine neue Datenquelle erhalten und auch Zusammenhänge zwischen verschiedenen Datentypen einfacher erkennen.
Denn wenn Sie nur die Standardstatistiken zum Zusammenfassen Ihrer Daten verwenden, erhalten Sie Min., Max., Mittelwert, Median und Modus, dies kann jedoch in anderer Hinsicht irreführend sein. Wie es in Anscombes Quartett gezeigt wird: Mittelwert und Abweichung sind immer gleich, aber die Datenverteilung ist immer unterschiedlich.
Bei der Datenvisualisierung gibt es zwei Arten:
- Explorative Datenvisualisierung
Wir nutzen dies, um Erkenntnisse über die Daten zu gewinnen. Es muss nicht optisch ansprechend sein.
- Erklärende Datenvisualisierung
Diese Visualisierungen müssen genau, aufschlussreich und optisch ansprechend sein, wenn sie den Benutzern präsentiert werden.
Diagrammmüll, Datentintenverhältnis und Designintegrität
Kartenschrott
Um die per Plot bereitgestellten Informationen ungestört lesen zu können, ist es wichtig, Diagrammmüll zu vermeiden. Wie:
- Schwere Gitterlinien
- Bilder in den Visuals
- Farbtöne
- 3D-Komponenten
- Ornamente
- Überflüssige Texte
Datentintenverhältnis
Je weniger Diagrammmüll in einem Bild vorhanden ist, desto höher ist das Datentintenverhältnis. Dies bedeutet lediglich, dass es umso besser ist, je mehr „Tinte“ in der Visualisierung verwendet wird, um die Botschaft der Daten zu transportieren.
Designintegrität
Der Lügenfaktor wird wie folgt berechnet:
$$
text{Lie Factor} = frac{text{Größe des in der Grafik angezeigten Effekts}}{text{Größe des Effekts in den Daten}}
$$
Das Delta steht für den Unterschied. Es handelt sich also um die in der Grafik angezeigte relative Änderung dividiert durch die tatsächliche relative Änderung der Daten. Im Idealfall sollte der Wert 1 sein. Ist dies nicht der Fall, bedeutet dies, dass die Art und Weise, wie die Daten dargestellt werden, nicht mit der tatsächlichen Änderung übereinstimmt.
Im obigen Beispiel aus dem Wiki beträgt der Lügenfaktor 3, wenn man die Pixel jedes Arztes vergleicht, was die Anzahl der Ärzte in Kalifornien darstellt.
Ordentliche Daten
Stellen Sie sicher, dass Ihre Daten ordnungsgemäß bereinigt und einsatzbereit sind:
- Jede Variable ist eine Spalte
- Jede Beobachtung ist eine Zeile
- Jede Art von Beobachtungseinheit ist eine Tabelle
Univariate Exploration von Daten
Dies bezieht sich auf die Analyse einer einzelnen Variablen (oder eines Merkmals) in einem Datensatz.
Balkendiagramm
- Zeichnen Sie immer beginnend bei 0, um Werte wirklich vergleichbar darzustellen.
- Solldaten sortieren
- Ordinaldaten nicht sortieren – hier ist es wichtiger zu wissen, wie oft die wichtigste Kategorie vorkommt, als die häufigste
- Wenn Sie viele Kategorien haben, verwenden Sie ein horizontales Balkendiagramm: Platzieren Sie die Kategorien auf der Y-Achse, um die Lesbarkeit zu verbessern.
Histogramm
- Quantitative Version eines Balkendiagramms. Dies wird verwendet, um numerische Werte darzustellen.
- Werte werden in fortlaufenden Abschnitten gruppiert, wobei jeweils ein Balken dargestellt wird
KDE – Kernel-Dichteschätzung
- oft eine Gauß- oder Normalverteilung, um die Dichte an jedem Punkt abzuschätzen.
- KDE-Diagramme können Trends und die Form der Verteilung klarer erkennen lassen, insbesondere bei Daten, die nicht gleichmäßig verteilt sind.
Kreisdiagramm und Donut-Diagramm
- Daten müssen in relativen Häufigkeiten vorliegen
- Kreisdiagramme funktionieren am besten mit maximal drei Abschnitten. Wenn mehr Keile angezeigt werden müssen, wird es unleserlich und die unterschiedlichen Beträge sind schwer zu vergleichen. Dann bevorzugen Sie ein Balkendiagramm.
Bivariate Exploration von Daten
Analysiert die Beziehung zwischen zwei Variablen in einem Datensatz.
Gruppierte Balkendiagramme
- zeigt die Beziehung zwischen zwei kategorialen Werten an. Die Balken sind basierend auf der Ebene der ersten Variablen in Clustern organisiert.
Streudiagramme
- Jeder Datenpunkt wird einzeln als Punkt dargestellt, wobei seine x-Position einem Merkmalswert und seine y-Position dem zweiten entspricht.
- Wenn der Plot unter Überzeichnung leidet (zu viele Datenpunkte überlappen): Sie können Transparenz und Jitter verwenden (jeder Punkt wird leicht von seinem wahren Wert verschoben).
Heatmaps
- 2D-Version eines Histogramms
- Datenpunkte werden so platziert, dass ihre x-Position einem Merkmalswert und ihre y-Position dem zweiten entspricht.
- Der Plotbereich ist in ein Raster unterteilt, die Anzahl der Punkte wird dort addiert und die Zählungen werden farblich angezeigt
Violinplots
- Zeigen Sie die Beziehung zwischen quantitativen (numerischen) und qualitativen (kategorialen) Variablen auf einer niedrigeren Abstraktionsebene.
- Die Verteilung wird wie eine Schätzung der Kerneldichte dargestellt, sodass wir eine klare Aussage haben können
- Um die wichtigsten Statistiken gleichzeitig anzuzeigen, können Sie einen Boxplot in einen Violinplot einbetten.
Boxplots
- Es stellt außerdem die Beziehung zwischen quantitativen (numerischen) und qualitativen (kategorialen) Variablen auf einer niedrigeren Abstraktionsebene dar.
- Im Vergleich zum Geigendiagramm basiert das Boxdiagramm mehr auf der Zusammenfassung der Daten und meldet in erster Linie nur eine Reihe beschreibender Statistiken für die numerischen Werte auf jeder kategorialen Ebene.
- Es visualisiert die fünfstellige Zusammenfassung der Daten: Minimum, erstes Quartil (Q1), Median (Q2), drittes Quartil (Q3) und Maximum.
Schlüsselelemente eines Boxplots:
Kasten: Der zentrale Teil des Diagramms stellt den Interquartilbereich (IQR) dar, der der Bereich zwischen dem ersten Quartil (Q1, 25. Perzentil) und dem dritten Quartil (Q3, 75. Perzentil) ist. Dies enthält die mittleren 50 % der Daten.
Medianlinie: Innerhalb der Box stellt eine Linie den Median (Q2, 50. Perzentil) des Datensatzes dar.
Whisker: Von der Box ausgehende Linien, sogenannte „Whisker“, zeigen den Bereich der Daten an, der innerhalb des 1,5-fachen IQR von Q1 und Q3 liegt. Sie erstrecken sich typischerweise auf die kleinsten und größten Werte innerhalb dieses Bereichs.
Ausreißer: Alle Datenpunkte, die außerhalb des 1,5-fachen IQR liegen, gelten als Ausreißer und werden oft durch einzelne Punkte oder Markierungen jenseits der Whiskers dargestellt.
Kombinierter Violin- und Boxplot
Der Violin-Plot zeigt die Dichte über verschiedene Kategorien hinweg und der Boxplot liefert die zusammenfassenden Statistiken
Facettieren
- Die Daten werden in disjunkte Teilmengen unterteilt, meist nach verschiedenen Ebenen einer kategorialen Variablen. Für jede dieser Teilmengen der Daten wird derselbe Diagrammtyp für andere Variablen gerendert, dh mehrere Histogramme nebeneinander mit unterschiedlichen kategorialen Werten.
Liniendiagramm
- wird verwendet, um den Trend einer Zahlenvariablen gegenüber einer zweiten Variablen darzustellen.
Quantil-Quantil-Diagramm (Q-Q).
- ist eine Art Diagramm, das verwendet wird, um die Verteilung eines Datensatzes mit einer theoretischen Verteilung (wie einer Normalverteilung) zu vergleichen oder um zwei Datensätze zu vergleichen, um zu überprüfen, ob sie derselben Verteilung folgen.
Schwarmplot
- Wie bei einem Streudiagramm wird jeder Datenpunkt mit seiner Position entsprechend seinem Wert für die beiden dargestellten Variablen dargestellt. Anstatt Punkte wie in einem normalen Streudiagramm zufällig zu zittern, werden die Punkte so nah wie möglich an ihrem tatsächlichen Wert platziert, ohne dass es zu Überlappungen kommt.
Spinnenplot
- Vergleichen Sie mehrere Variablen verschiedener Kategorien in einem radialen Raster. Auch als Radarkarte bekannt.
Nützliche Links
Mein Beispiel-Notizbuch
Beispielcode
Für die Beispielplots verwendete Bibliotheken:
-
Matplotlib: eine vielseitige Bibliothek für Visualisierungen, aber das Zusammenstellen gängiger Visualisierungen kann etwas Codeaufwand erfordern.
- Seaborn: basiert auf Matplotlib und fügt eine Reihe von Funktionen hinzu, um die Generierung gängiger statistischer Visualisierungen zu vereinfachen.
-
Pandas: Während diese Bibliothek einige praktische Methoden zur Visualisierung von Daten enthält, die sich in Matplotlib einbinden lassen, werden wir sie hauptsächlich für ihren Hauptzweck als allgemeines Werkzeug für die Arbeit mit Daten verwenden (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf). ).
Weiterführende Literatur:
- Anscombes Quartett: Gleiche Statistiken für die Daten, aber unterschiedliche Verteilung: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
- Chartchunk: https://en.wikipedia.org/wiki/Chartjunk
- Datentintenverhältnis: https://infovis-wiki.net/wiki/Data-Ink_Ratio
- Lügenfaktor: https://infovis-wiki.net/wiki/Lie_Factor
- Ordentliche Daten: https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
- Farbenblindfreundliche Visualisierungen: https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together
Das obige ist der detaillierte Inhalt vonGrundlagen der Datenvisualisierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!