カイ二乗検定は、サンプル サイズと相関度の変化を分析するために使用される統計手法であり、データ分析や機械学習の分野でよく使用されます。 Python は、データ処理とカイ二乗検定の適用において優れた効率性と柔軟性を備え、広く使用されているプログラミング言語です。この記事では、読者がこの重要な統計手法を理解し、適用できるように、Python でのカイ 2 乗検定手法を紹介します。
1. カイ二乗検定の基本概念
カイ二乗検定は、2 つ以上の変数間の独立性または相関性を検定するために使用されます。カイ二乗統計を使用して、観測値と期待値の差を測定します。カイ二乗統計量の式は次のとおりです。
XX^2 = Σ(Oi - Ai)^2 / Ei
ここで、Oi は観測値、Ei は期待値です。 、Σは和記号です。カイ二乗統計量によって計算された結果は、データが自由に変化する程度である自由度および有意水準に関連します。式は次のとおりです:
df = (r - 1) x (c - 1)
ここで、r は行数、c は列数です。有意水準は間違っている確率を指し、通常は 0.05 または 0.01 に設定されます。
2. Python のカイ二乗検定関数
Python では、SciPy ライブラリの stats.chi2_contingency 関数を使用してカイ二乗検定を実行できます。この関数は、2 つ以上のカテゴリ変数間の独立性のカイ二乗検定の結果を計算し、カイ二乗統計量、p 値、自由度、および期待値を含むタプルを返します。
この関数の構文は次のとおりです:
chi2, pval, dof, expctd = stats.chi2_contingency(observed)
ここで、observed は観測値を含む行列です。行列の行は 1 つの変数を表し、列は別の変数を表します。
3. Python を使用してカイ二乗検定を実行する
次に、実際の例を見てみましょう。複数のカテゴリ変数を含むデータセットがあり、これらの変数が互いに独立しているかどうかを判断したいとします。この例では、性別と好みを含むダミー データセットを使用します。データの形式は次のとおりです:
data = [[45, 21, 16], [34, 32, 26]]
このうち、男性グループは 45 人、バナナ好きが 21 人、リンゴ好きが 16 人、女性グループは 34 人、バナナ好きが 32 人です。 、26人はリンゴが好きです。
stats.chi2_contingency 関数を使用してカイ二乗検定の結果を計算できます:
from scipy import stats data = [[45, 21, 16], [34, 32, 26]] chi2, pval, dof, expctd = stats.chi2_contingency(data) print('卡方统计量:', chi2) print('p值:', pval) print('自由度:', dof) print('期望值:', expctd)
実行結果は次のとおりです:
卡方统计量: 6.1589105976316335 p值: 0.046274961203698944 自由度: 2 期望值: [[37.28571429 21.40559441 22.30869129] [41.71428571 31.59440559 32.69130871]]
次のとおりです。有意水準 0.05 以下では、性別と好みの間に独立性があるという帰無仮説を棄却します。これは、性別と好みの間には一定の相関関係があることを意味します。
4. 概要
Python でカイ二乗検定を使用するプロセスは非常に簡単です。 SciPy ライブラリの stats.chi2_contingency 関数を使用して、観測値を含む行列を入力し、カイ二乗検定の結果を取得できます。カイ二乗検定を適用するときは、適切な自由度および有意水準を選択するように注意する必要があります。カイ二乗検定は、機械学習と統計で広く使用されている一般的で便利なデータ分析方法です。 Python でカイ 2 乗検定のスキルを習得すると、実際的な問題を調査して解決するのに非常に役立ちます。
以上がPython でのカイ二乗検定手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。