了解您的數據：探索性數據分析 (EDA) 的要點。-Python教學-PHP中文網

了解您的數據：探索性數據分析 (EDA) 的要點。

WBOY

發布： 2024-08-18 06:12:32

原創

776 人瀏覽過

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

收集並儲存資料後，需要對其進行分析以獲得對其有意義的理解。正是由於這個原因，探索性數據分析（EDA）發揮了作用。顧名思義，我們正在「探索」數據，即獲得數據的總體概述。

收集的資料可以是文字、影片或圖像，通常以非結構化方式儲存。您很少會找到 100% 乾淨的數據，即沒有任何異常情況。此外，資料可能採用各種格式，例如 Excel、CSV（逗號分隔值）、Json、Parquet 等

在資料世界中，EDA 也可能稱為資料操作 或資料清理。業界從業人員強調清理資料以刪除「垃圾」的重要性，因為這可能會對結果和預測產生負面影響。結構化資料通常採用表格格式，可以使用多種技術和工具（如 Excel、Power BI、SQL）進行分析，但我們將專注於 Python 來進行說明。

使用 Python 進行 EDA
Python 程式語言是 EDA 中最廣泛的工具之一，因為它具有多功能性，可以跨多個行業使用，包括金融、教育、醫療保健、採礦、酒店等。
內建函式庫，即 Pandas 和 NumPy 在這方面非常有效，並且可以跨領域工作（無論是使用 Anaconda/Jupyter Notebook、Google Collab 還是 Visual Studio 等 IDE）

以下是執行 EDA 時可執行的常見步驟和程式碼行：

首先，您將匯入操作/分析所需的 python 庫：

將 pandas 匯入為 pd
將 numpy 匯入為 np

其次，載入資料集
df = pd.read_excel('檔案路徑')

注意：df 是將表格資料轉換為資料框的標準函數。

載入後，您可以使用以下程式碼預覽資料：
df.head()

這將顯示資料集的前 5 行
或者，您可以簡單地運行 df ，它將顯示整個資料集的選定幾行（頂部和底部）以及其中的所有列。

第三，使用以下方式了解所有資料類型：
df.info()

注意：資料型別包括整數（整數）、浮點數（小數）或物件（質性資料/描述性文字）。

在此步驟中，建議使用以下方式取得資料的總統計資料：
df.describe()

這將為您提供平均值、眾數、標準差、最大值/最小值和四分位數等統計量。

第四，使用以下方法辨識資料集中是否存在空值：
df.isnull()