使用 Pandas 和 SciPy 進行多列 T 檢驗-Python教學-PHP中文網

使用 Pandas 和 SciPy 进行多列 T 检验

单个 T 检验

同时对多列进行 T 检验

推广到更多分组

注意事项

总结

首頁

後端開發

Python教學

使用 Pandas 和 SciPy 進行多列 T 檢驗

Patricia Arquette

Aug 19, 2025 pm 04:36 PM

使用 Pandas 和 SciPy 进行多列 T 检验

本文介绍了如何使用 Pandas 和 SciPy 库对 Pandas DataFrame 中的多个列同时进行 t 检验。通过示例代码，详细展示了如何针对特定分组进行 t 检验，并提供了将方法推广到更多分组的解决方案。此外，还提醒了在进行多重比较时需要注意的问题，以及如何处理多重检验问题。

使用 Pandas 和 SciPy 进行多列 T 检验

T 检验是一种常用的统计方法，用于比较两组数据的均值是否存在显著差异。在数据分析中，我们经常需要对 DataFrame 中的多个列进行 t 检验，以评估不同类别变量对数值型变量的影响。本文将介绍如何使用 Pandas 和 SciPy 库高效地实现这一目标。

单个 T 检验

首先，我们创建一个示例 DataFrame：

import pandas as pd
from scipy.stats import ttest_ind

data = {'Product': ['laptop', 'printer','printer','printer','laptop','printer','laptop','laptop','printer','printer'],
        'Purchase_cost': [120.09, 150.45, 300.12, 450.11, 200.55,175.89,124.12,113.12,143.33,375.65],
        'Warranty_years':[3,2,2,1,4,1,2,3,1,2],
        'service_cost': [5,5,10,4,7,10,4,6,12,3]

        }

df = pd.DataFrame(data)

print(df)

假设我们想比较 Product 为 'laptop' 和 'printer' 的两组数据在 Purchase_cost 上的差异。我们可以使用以下代码：

#define samples
group1 = df[df['Product']=='laptop']
group2 = df[df['Product']=='printer']

#perform independent two sample t-test
ttest_ind(group1['Purchase_cost'], group2['Purchase_cost'])

这段代码首先根据 Product 列的值将 DataFrame 分为两组，然后使用 scipy.stats.ttest_ind 函数对两组数据的 Purchase_cost 列进行独立样本 t 检验。

同时对多列进行 T 检验

如果我们需要同时对多个列（例如 Purchase_cost、Warranty_years 和 service_cost）进行 t 检验，可以使用以下代码：

cols = df.columns.difference(['Product'])
# or with an explicit list
# cols = ['Purchase_cost', 'Warranty_years', 'service_cost']

group1 = df[df['Product']=='laptop']
group2 = df[df['Product']=='printer']
out = pd.DataFrame(ttest_ind(group1[cols], group2[cols]),
                   columns=cols, index=['statistic', 'pvalue'])

print(out)

这段代码首先获取需要进行 t 检验的列名列表 cols，然后将 DataFrame 分为两组。关键在于，ttest_ind 函数可以直接处理 2D 输入，即同时对多列数据进行 t 检验。最后，将结果存储在一个新的 DataFrame out 中，方便查看和分析。

另一种实现方式是使用字典推导式：

out = pd.DataFrame({c: ttest_ind(group1[c], group2[c]) for c in cols},
                    index=['statistic', 'pvalue'])

这种方式更加简洁，但可读性可能稍差。

推广到更多分组

如果 DataFrame 中包含更多不同的 Product 值，并且我们希望比较所有可能的组合，可以使用 itertools.combinations 函数：

from itertools import combinations

cols = df.columns.difference(['Product'])

g = df.groupby('Product')[cols]

out = pd.concat({(a,b): pd.DataFrame(ttest_ind(g.get_group(a), g.get_group(b)),
                                     columns=cols, index=['statistic', 'pvalue'])
                 for a, b in combinations(df['Product'].unique(), 2)
                }, names=['product1', 'product2'])

print(out)

这段代码首先使用 groupby 函数按照 Product 列对 DataFrame 进行分组，然后使用 itertools.combinations 函数生成所有可能的组合。对于每一种组合，我们都进行 t 检验，并将结果存储在一个新的 DataFrame out 中。

注意事项

在进行多重比较时，需要注意多重检验问题。由于我们进行了多次 t 检验，因此出现假阳性的概率会增加。为了解决这个问题，可以采用一些多重检验校正方法，例如 Bonferroni 校正或 Benjamini-Hochberg 校正。这些校正方法可以调整 p 值，以控制假阳性率。

总结

本文介绍了如何使用 Pandas 和 SciPy 库对 Pandas DataFrame 中的多个列同时进行 t 检验。通过示例代码，详细展示了如何针对特定分组进行 t 检验，并提供了将方法推广到更多分组的解决方案。此外，还提醒了在进行多重比较时需要注意的问题。掌握这些技巧可以帮助我们更高效地进行数据分析。

以上是使用 Pandas 和 SciPy 進行多列 T 檢驗的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Related knowledge

PEFT LoRA適配器與基礎模型的高效合併策略 Sep 19, 2025 pm 05:12 PM

本教程詳細介紹瞭如何將PEFT LoRA適配器與基礎模型高效合併，生成一個完全獨立的模型。文章指出直接使用transformers.AutoModel加載適配器並手動合併權重是錯誤的，並提供了使用peft庫中merge_and_unload方法的正確流程。此外，教程還強調了處理分詞器的重要性，並討論了PEFT版本兼容性問題及解決方案。

如何從python中的unignts.txt文件安裝包裝 Sep 18, 2025 am 04:24 AM

運行pipinstall-rrequirements.txt可安裝依賴包，建議先創建並激活虛擬環境以避免衝突，確保文件路徑正確且pip已更新，必要時使用--no-deps或--user等選項調整安裝行為。

如何用Pytest測試Python代碼 Sep 20, 2025 am 12:35 AM

Pytest是Python中簡單強大的測試工具，安裝後按命名規則自動發現測試文件。編寫以test_開頭的函數進行斷言測試，使用@pytest.fixture創建可複用的測試數據，通過pytest.raises驗證異常，支持運行指定測試和多種命令行選項，提升測試效率。

如何處理python中的命令行參數 Sep 21, 2025 am 03:49 AM

theargparsemodulestherecommondedwaywaytohandlecommand-lineargumentsInpython，提供式刺激，typeValidation，helpmessages anderrornhandling; useSudys.argvforsimplecasesRequeRequeRingminimalSetup。

Python中浮點數精度問題及其高精度計算方案 Sep 19, 2025 pm 05:57 PM

本文旨在探討Python及NumPy中浮點數計算精度不足的常見問題，解釋其根源在於標準64位浮點數的表示限制。針對需要更高精度的計算場景，文章將詳細介紹並對比mpmath、SymPy和gmpy等高精度數學庫的使用方法、特點及適用場景，幫助讀者選擇合適的工具來解決複雜的精度需求。

如何使用Python中的PDF文件 Sep 20, 2025 am 04:44 AM

PyPDF2、pdfplumber和FPDF是Python處理PDF的核心庫。使用PyPDF2可進行文本提取、合併、拆分及加密，如通過PdfReader讀取頁面並調用extract_text()獲取內容；pdfplumber更適合保留佈局的文本提取和表格識別，支持extract_tables()精準抓取表格數據；FPDF（推薦fpdf2）用於生成PDF，通過add_page()、set_font()和cell()構建文檔並輸出。合併PDF時，PdfWriter的append()方法可集成多個文件

python獲得當前時間示例 Sep 15, 2025 am 02:32 AM

獲取當前時間在Python中可通過datetime模塊實現，1.使用datetime.now()獲取本地當前時間，2.用strftime("%Y-%m-%d%H:%M:%S")格式化輸出年月日時分秒，3.通過datetime.now().time()獲取僅時間部分，4.推薦使用datetime.now(timezone.utc)獲取UTC時間，避免使用已棄用的utcnow()，日常操作以datetime.now()結合格式化字符串即可滿足需求。

如何使用Python中的@ContextManager Decorator創建上下文管理器？ Sep 20, 2025 am 04:50 AM

Import@contextmanagerfromcontextlibanddefineageneratorfunctionthatyieldsexactlyonce,wherecodebeforeyieldactsasenterandcodeafteryield(preferablyinfinally)actsas__exit__.2.Usethefunctioninawithstatement,wheretheyieldedvalueisaccessibleviaas,andthesetup

See all articles

使用 Pandas 和 SciPy 進行多列 T 檢驗

使用 Pandas 和 SciPy 进行多列 T 检验

单个 T 检验

同时对多列进行 T 检验

推广到更多分组

注意事项

总结

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

ArtGPT

Stock Market GPT

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題