為什麼要使用 Python 進行資料分析(當您有 Excel 或 Google Sheets 時)

Mary-Kate Olsen
發布: 2024-11-17 16:58:02
原創
660 人瀏覽過

TL;DR:雖然電子表格非常適合許多資料任務,但當您需要處理大型資料集、建立高級視覺化、自動化工作流程或使用機器學習模型時,Python 就變得至關重要。關鍵是知道何時利用每種工具的優勢來滿足您的特定數據分析需求。

雖然 Python 通常被認為對於資料工作至關重要,但電子表格仍然是滿足許多分析師日常需求的最實用工具 - 這完全沒問題。但知道何時超越它們對於提高您的數據能力至關重要。

如果您查看任何資料分析師或資料科學家課程,您會發現相同的核心工具:電子表格、SQL、Python 和各種商業智慧 (BI) 解決方案。然而,當我與資料從業者和領導者交談時,出現了一個常見問題:「當電子表格可以滿足我的大部分需求時,為什麼要切換到 Python?」

作為一家基於 SQL、Python 和 AI 的公司的聯合創始人,我的立場可能會讓您感到驚訝:如果電子表格可以完成這項工作,那就使用它。這些工具自 20 世紀 70 年代以來一直經久不衰,有充分的理由 – 它們直觀、靈活,並且非常適合向他人解釋您的工作。

但它們也有其限制。

當您開始進行更多臨時分析或探索性資料分析或處理企業中的更多資料時,您很快就會遇到一些問題:

  • 他們在處理大型資料集時遇到困難
  • 它們提供有限的視覺化和儀表板功能
  • 它們使得建立自動化資料管道變得困難
  • 他們缺乏先進的統計和機器學習能力
  • 它們不支援版本控制,因此很難遵循工程最佳實踐 下面,我將詳細分析為什麼電子表格對於許多任務仍然具有無價的價值,以及 Python 何時成為資料之旅中必要的下一步。

為什麼要使用 Excel 或 Google 試算表?

電子表格的核心功能非常強大,因為它們使您可以完全控制資料工作區。就像擁有自己的客製化儀表板一樣,它們可以讓您按照您想要的方式立即操作、視覺化和分析資料。

人們傾向於電子表格有兩個主要原因:

1.電子表格靈活且個人化

讓我們從數據從業者(無論技能水平如何)喜歡電子表格的最明顯原因開始:它們非常靈活且可自訂。

在電子表格中,您在自己的環境中工作,並且可以完全控制它。您想突出顯示特定行並建立快速圖表嗎?簡單的。您想添加一些條件格式來突出顯示特定模式嗎?沒問題。您甚至想添加行或列來添加一些輸入?往前走。

Why use Python for data analysis (when you have Excel or Google Sheets)

作為用戶,您擁有完全的控制權,即使在 Google 試算表等共享工作區環境中也是如此。這確實很強大,特別是與傳統的BI 解決方案相比,傳統的BI 解決方案無法以同樣的方式直接在線編輯數據,也無法調出特定的數據片段,而不必將數據分割成較小的子集,從而可以快速取得不可收拾。事實上,一些新的 BI 解決方案(例如 Sigma)正在利用這個想法,以類似電子表格的介面作為其主要賣點。

總而言之,電子表格的使用者體驗非常直覺。我們從小就學習數學,電子表格提供了一種結構良好的方式來查看數據並理解所有數字如何相加。

2.電子表格是反應性的且可解釋的

電子表格中的反應性意味著當您更改一個數字時,與其連接的所有內容都會自動更新。這種即時回饋使他們非常適合了解不同數據如何相互影響。

例如,假設您的儲存格連接如下:

C1 = A1 B2

反應性是指當你更新A1或B2時,C1會自動更新。實際上有一個 DAG 可以追蹤所有單元之間的依賴關係或譜系。這是一個非常強大的概念,因為與程式碼不同,您不必「運行」電子表格。您可以簡單地建立一個世界模型並調整輸入,然後查看結果如何對這種變化做出反應。

這種反應性在很大程度上也有助於輕鬆理解電子表格。我可以查看一個易於理解的公式,單擊它以突出顯示相關單元格,然後調整相關單元格以了解我正在查看的數字如何反應以及與其相關。

Why use Python for data analysis (when you have Excel or Google Sheets)

如上圖所示,如果您想知道哪些數字對稅前淨收入貢獻最大,您只需單擊單元格,查看相關單元格,即可立即了解稅前淨收入有哪些變量。

出於這些原因,如果您能夠在電子表格中完成工作,這可能是一個好主意。

為什麼要使用Python

雖然電子表格在許多任務上表現出色,但 Python 為資料工作開闢了一個充滿可能性的全新世界。從處理大量資料集到創建複雜的視覺化和自動執行重複任務,Python 成為資料工作流程的強大工具有五個原因。

1.Python輕鬆處理大量數據

使用 Python 的第一個也是最明顯的原因是在處理大型資料集時說明的。 Excel 可以支援大約 1M 行 x 17k 列,Google Sheets 可以支援大約 10M 個儲存格。這聽起來可能很多,而且在許多情況下這已經足夠了,但很可能,您很快就會遇到這個限制。相比之下,Python 在功能強大的機器上可以支援多個數量級的資料。如果您利用 Polars 和 DuckDB 等新技術,這一點尤其正確。

隨著時間的推移,我們可能會看到電子表格的限制不斷增加,但 Python(尤其是與 SQL 結合使用)始終能夠處理更多。

2. Python支援進階和客製化的可視化

電子表格可以提供一些非常強大的視覺效果,但這只是 Python 功能的一小部分。我堅信長條圖、折線圖和地圖涵蓋了絕大多數情況,但用數據講述故事通常需要打破平凡並創建一個引人入勝的畫布。

例如,我喜歡一個好的桑基圖來講述數據如何從 A 點流到 B 點的故事。或者您可能想要建立一個雷達圖來比較不同類別的屬性。

使用諸如plotly、seaborn 或bokeh 之類的函式庫在Python 中建構它們非常容易。

舉個例子,讓我們回到先前貼文中的 Superdope 範例,並假設您想在旭日圖上比較產品效能,如下所示:

Why use Python for data analysis (when you have Excel or Google Sheets)

使用plotly之類的函式庫透過程式碼產生此圖表相當簡單:

import plotly.express as px

# Create the sunburst plot
fig = px.sunburst(
    df_sunburst,
    path=['Region', 'Category', 'Product'],
    values='Sales',
    color='Region',
    title='Sales Distribution by Region, Category, and Product',
    width=800,
    height=450
)

# Update layout
fig.update_layout(
    margin=dict(t=50, l=0, r=0, b=0)
)

# Show the plot
fig.show()
And this code can be generated by AI in about 3 seconds. Building something similar in a spreadsheet would require a lot more time and effort.
登入後複製

3. Python 幫助您自動化資料管道和清理

處理資料時,您經常會發現自己在執行重複的資料轉換任務。例如,假設您所在的行業的客戶定期向您發送 CSV 或 Excel 文件,您必須清理數據並格式化數據,然後將其轉換為報告或為其他步驟做好準備。對 Python 來說,這是一個完美的任務。如果您正在管理自己的伺服器並且足智多謀,您可以編寫一個腳本並安排它使用Cron 作業運行,或者如果您想使用開箱即用並處理編排和更複雜作業的託管解決方案,您可以使用Dagster 或Airflow等解決方案。

作為一般規則,現在通常最好避免本地開發的 Cron 作業,除非您確切知道自己在做什麼。確保這些保持正常運作、進行適當的日誌記錄和監控並進行適當的編排可以很快變成大量工作。

注意:如果您只是在尋找一種輕量級且快速的方法來建立資料管道,Fabi.ai 可能是您的好選擇。我們可以協助您在幾分鐘內輕鬆設定往返任何來源(包括 CSV 檔案和 Excel 檔案)的資料整理和清理管道。

4. Python支援複雜的資料分析與機器學習

您可以在電子表格中執行很多操作,但建立和使用更高級的統計和機器學習模型通常不是其中之一。如果您只是進行單變量資料分析和一些簡單的計算(例如分佈、平均值等),電子表格應該能夠完成工作。但如果您想嘗試更高級的多變量分析,甚至是聚類、預測和流失預測,Python 配備了一套豐富的開箱即用工具。

以下是您可能想要與相應的 Python 套件一起進行的分析類型的一些示例:

  • 使用叢集對買家或客戶進行分組:sklean.cluster(例如 Kmeans)
  • 銷售或行銷通路時間序列預測:Prophet 或 statsmodels(如 ARIMA)
  • 客戶流失預測:scikit-survival 這些都是由世界上一些最優秀的工程師和研究人員實現的高級機器學習和統計模型,免費提供,並且可以立即在 Python 中使用。

5. Python 幫助您遵循程式碼版本控制和工程最佳實踐

最後,在許多情況下,確保您的工作可追溯和可複製是一種很好的做法。

在實踐中,這意味著當其他人(或以後可能是你自己)查看您的分析時,這個人應該能夠理解:

  • 資料來自哪裡
  • 如何操縱數據以及如何獲得結果
  • 能夠獨立重現相同的結果 因此,如果在電子表格中工作意味著匯出資料並在與原始來源斷開連接的地方對其進行操作,則可能會使結果很難重現。這也意味著您在分析過程中採取的步驟不受版本控制。當您進行分析並進行調整時,可能不會記錄確切的步驟。這可能會讓你陷入一個我們都至少經歷過一次的艱難境地:你在電子表格中建立了一個漂亮的分析,與一些同事共享,稍後返回並注意到數據是不同的。您可能會透過查看更改歷史記錄來了解發生了什麼,但無濟於事。

使用 Github 或 Gitlab 等版本控制系統並在進行分析時提交對底層程式碼的變更可以幫助您避免這種情況。

結論:對於大數據集;高級分析和視覺化;和自動化,Python 獲勝?

如果您想要進行複雜的臨時或探索性資料分析、使用先進的機器學習技術或建立複雜的視覺化,Python 是完成這項工作的最佳和最強大的工具之一。

是的,電子表格非常受歡迎是有充分理由的。如果您處理的資料集相對較小,則在不需要自動化的一次性分析中,Excel 或 Google Sheets 是很好的工具。

但是,Python 在處理大型資料集時表現得非常好,這對於 Excel 或 Google Sheets 來說可能是一個問題。 Python 也常用於自動化資料管道,特別是當它需要某種形式的資料轉換和清理時。

像大多數事情一樣,需要在特定的時間和地點使用某些工具來充分發揮其優勢。我們建造 Fabi.ai 來充當所有工具之間的橋樑,這樣您就可以兩全其美。

我們讓連接到任何資料來源(包括電子表格和檔案)變得異常容易,並建立輕量級資料管道。我們內建的 SQL 和 Python 介面經過 AI 增強,使得利用先進的機器學習和統計模型變得異常容易,無論以前的經驗如何。如果您有興趣了解我們,今天您可以在不到 2 分鐘的時間內免費開始使用。

以上是為什麼要使用 Python 進行資料分析(當您有 Excel 或 Google Sheets 時)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:dev.to
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板