データビズを使用する理由
大量のデータを含む新しいデータ ソースを操作する必要がある場合、データをより深く理解するためにデータの視覚化を使用することが重要になることがあります。
データ分析プロセスは、ほとんどの場合、次の 5 つのステップで行われます。
- 抽出 - スプレッドシート、SQL、Web などからデータを取得します。
- クリーン - ここでは探索的なビジュアルを使用できます。
- 探索 - ここでは探索的なビジュアルを使用します。
- 分析 - ここでは、探索的または説明的なビジュアルを使用します。
- 共有 - ここには説明的なビジュアルが存在します。
データの種類
特定のメジャーに対して適切なプロットを選択できるようにするには、どのようなデータを扱っているかを知ることが重要です。
定性的タイプ、別名カテゴリー タイプ
名目定性データ
アイテム自体に順序やランクが関連付けられていないラベル。
例: 性別、婚姻状況、メニュー項目
通常の定性データ
順序またはランキングがあるラベル。
例: レターグレード、評価
定量的、別名数値型
離散的な定量値
数値をより小さな単位に分割することはできません
例: 本のページ、公園の木の数
連続的な定量値
数値はより小さな単位に分割できます
例: 身長、年齢、収入、労働時間
概要統計
数値データ
平均: 平均値。
中央値: データを並べ替えたときの中央値。
モード: 最も頻繁に発生する値。
分散/標準偏差: 広がりまたは分散の尺度。
範囲: 最大値と最小値の差。
カテゴリカルデータ
頻度: 各カテゴリの出現数。
モード: 最も頻繁に使用されるカテゴリ。
視覚化
新しいデータ ソースに関する洞察を非常に迅速に得ることができ、また、異なるデータ型間の関係も簡単に確認できます。
標準統計だけを使用してデータを要約すると、最小値、最大値、平均値、中央値、最頻値が得られますが、これは他の側面で誤解を招く可能性があるためです。アンスコムのカルテットに示されているように、平均と偏差は常に同じですが、データの分布は常に異なります。
データ視覚化には 2 つのタイプがあります:
- 探索的データの視覚化
これを使用してデータに関する洞察を取得します。視覚的に魅力的である必要はありません。
- 説明的なデータの視覚化
このビジュアライゼーションは、ユーザーに提示されるため、正確で洞察力があり、視覚的に魅力的である必要があります。
ジャンク チャート、データ インク比率、および設計の整合性
チャートジャンク
プロットを通じて提供される情報を気を散らすことなく読むことができるようにするには、チャートのジャンクを避けることが重要です。いいね:
- 太いグリッド線
- ビジュアル内の写真
- シェード
- 3D コンポーネント
- 装飾品
- 余分なテキスト
データインク比率
ビジュアル内のチャートのジャンクが低いほど、データ インクの比率が高くなります。これは、データのメッセージを伝えるためにビジュアル内の「インク」が多ければ多いほど、より良いものになることを意味します。
設計の整合性
嘘係数は次のように計算されます:
$$
text{嘘の係数} = frac{text{グラフィックに示された効果のサイズ}}{text{データ内の効果のサイズ}}
$$
デルタは差を表します。つまり、グラフに示されている相対変化をデータの実際の相対変化で割ったものになります。理想的には 1 である必要があります。そうでない場合は、データの表示方法と実際の変更に何らかの不一致があることを意味します。
Wiki から引用した上記の例では、各医師のピクセルを比較すると、嘘係数は 3 となり、カリフォルニアの医師の数を表します。
きちんとしたデータ
データが適切に消去され、使用できる状態になっていることを確認してください:
- 各変数は列です
- 各観測値は 1 行です
- 各種類の観測単位はテーブルです
データの一変量探索
これは、データセット内の単一の変数 (または特徴) の分析を指します。
棒グラフ
- 実際に比較可能な方法で値を表示するために、常に 0 から始まるプロットを行います。
- 名目データを並べ替える
- 順序データを並べ替えないでください。ここでは、最も頻繁に出現するカテゴリよりも、最も重要なカテゴリがどのくらいの頻度で出現するかを知ることが重要です
- 多くのカテゴリがある場合は、水平棒グラフを使用します。Y 軸にカテゴリを配置すると、読みやすくなります。
ヒストグラム
- 棒グラフの定量バージョン。これは数値をプロットするために使用されます。
- 値は連続したビンにグループ化され、それぞれに 1 つのバーがプロットされます
KDE - カーネル密度の推定
- 多くの場合、各点の密度を推定するためにガウス分布または正規分布が使用されます。
- KDE プロットを使用すると、特に均一に分布していないデータの傾向と分布の形状をより明確に明らかにできます。
円グラフとドーナツ プロット
- データは相対頻度である必要があります
- 円グラフは最大 3 つのスライスで最適に機能します。表示するウェッジの数が増えると読みにくくなり、さまざまな量を比較するのが難しくなります。その場合は棒グラフの方が良いでしょう。
データの二変量探索
データセット内の 2 つの変数間の関係を分析します。
集合棒グラフ
- は 2 つのカテゴリ値間の関係を表示します。バーは、最初の変数のレベルに基づいてクラスターに編成されます。
散布図
- 各データ ポイントは点として個別にプロットされ、その x 位置は 1 つの特徴値に対応し、y 位置は 2 番目の特徴値に対応します。
- プロットにオーバープロットが発生している場合 (重複するデータポイントが多すぎる場合): 透明度とジッターを使用できます (すべてのポイントが真の値からわずかに移動します)
ヒートマップ
- ヒストグラムの 2D バージョン
- データ ポイントは、x 位置が 1 つの特徴値に対応し、y 位置が 2 番目の特徴値に対応するように配置されます。
- プロット領域がグリッドに分割され、そこにあるポイントの数が加算され、カウントが色で表示されます
ヴァイオリンプロット
- より低い抽象化レベルでの量的 (数値) 変数と定性的 (カテゴリ) 変数間の関係を示します。
- 分布はカーネル密度推定のようにプロットされるため、明確な結果が得られます
- 主要な統計を同時に表示するには、バイオリン プロットに箱ひげ図を埋め込むことができます。
箱ひげ図
- また、より低い抽象化レベルでの量的 (数値) 変数と定性的 (カテゴリ) 変数間の関係もプロットします。
- バイオリン プロットと比較して、箱ひげ図はデータの要約に重点を置き、主に各カテゴリ レベルの数値の一連の記述統計を報告するだけです。
- データの 5 つの数値サマリーを視覚化します: 最小値、第 1 四分位数 (Q1)、中央値 (Q2)、第 3 四分位数 (Q3)、最大値。
箱ひげ図の主要な要素:
ボックス: プロットの中央部分は四分位範囲 (IQR) を表します。これは、第 1 四分位 (Q1、25 パーセンタイル) と第 3 四分位 (Q3、75 パーセンタイル) の間の範囲です。これにはデータの中央の 50% が含まれます。
中央線: ボックス内の線は、データセットの中央値 (Q2、50 パーセンタイル) を表します。
ひげ: 「ひげ」として知られるボックスから伸びる線は、Q1 と Q3 の IQR の 1.5 倍以内にあるデータの範囲を示します。通常、これらはこの範囲内の最小値と最大値まで拡張されます。
外れ値: IQR の 1.5 倍の範囲外にあるデータ ポイントは外れ値とみなされ、多くの場合、ひげを超えた個々のドットまたはマークで表されます。
ヴァイオリンと箱ひげ図の組み合わせ
バイオリン プロットはさまざまなカテゴリにわたる密度を示し、箱ひげ図は概要統計を提供します
ファセット加工
- データは、多くの場合、カテゴリー変数の異なるレベルによって、素のサブセットに分割されます。データのこれらのサブセットのそれぞれについて、同じプロット タイプが他の変数、つまり、異なるカテゴリ値を持つより多くのヒストグラムが隣り合ってレンダリングされます。
折れ線グラフ
- 2 番目の変数に対する 1 つの数値変数の傾向をプロットするために使用されます。
分位数-分位数 (Q-Q) プロット
- は、データセットの分布を理論的分布 (正規分布など) と比較したり、2 つのデータセットを比較して同じ分布に従っているかどうかを確認したりするために使用されるプロットの一種です。
群プロット
- 散布図と同様に、各データ ポイントは、プロットされる 2 つの変数の値に応じた位置でプロットされます。通常の散布図のようにランダムにポイントをジッタリングするのではなく、ポイントは重複を許さずに可能な限り実際の値に近づけて配置されます。
スパイダープロット
- 放射状グリッド上の異なるカテゴリにわたる複数の変数を比較します。レーダーチャートとも呼ばれます。
役立つリンク
私のサンプルノート
サンプルコード
サンプル プロットに使用されるライブラリ:
-
Matplotlib: ビジュアライゼーション用の多用途ライブラリですが、一般的なビジュアライゼーションをまとめるにはコードの作成に多少の労力がかかる場合があります。
- Seaborn: matplotlib 上に構築され、一般的な統計視覚化を簡単に生成できるようにするための多くの関数が追加されています。
-
pandas: このライブラリには、matplotlib にフックするデータを視覚化するための便利なメソッドがいくつか含まれていますが、主にデータを操作するための一般的なツールとして主な目的で使用します (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) ).
さらに読む:
- アンスコム カルテット: データの統計は同じですが、分布が異なります: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
- チャートチャンク: https://en.wikipedia.org/wiki/Chartjunk
- データ インク比: https://infovis-wiki.net/wiki/Data-Ink_Ratio
- 嘘の要素: https://infovis-wiki.net/wiki/Lie_Factor
- きちんとしたデータ: https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
- 色盲に優しいビジュアライゼーション: https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together
以上がデータ視覚化の基礎の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。