不均衡なデータを処理するための Python ライブラリのトップ 10-AI-php.cn

不均衡なデータを処理するための Python ライブラリのトップ 10

王林

リリース： 2023-09-30 19:53:03

転載

1182 人が閲覧しました

データの不均衡は機械学習における一般的な課題であり、あるクラスの数が他のクラスを大幅に上回っており、偏ったモデルや不十分な一般化につながる可能性があります。不均衡なデータを効率的に処理するために役立つさまざまな Python ライブラリがあります。この記事では、機械学習で不均衡なデータを処理するための Python ライブラリのトップ 10 を紹介し、各ライブラリのコードスニペットと説明を提供します。

不均衡なデータを処理するための Python ライブラリのトップ 10

1.implanced-learn

imbalanced-learn は、scikit-learn の拡張ライブラリであり、さまざまなデータセットのリバランス手法を提供するように設計されています。このライブラリには、オーバーサンプリング、アンダーサンプリング、組み合わせメソッドなどの複数のオプションが用意されています。

 from imblearn.over_sampling import RandomOverSampler  ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)

ログイン後にコピー

2、SMOTE

SMOTE は、データセットのバランスをとるために合成サンプルを生成します。

from imblearn.over_sampling import SMOTE  smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)

ログイン後にコピー

3. ADASYN

ADASYN は、いくつかのサンプルの密度に基づいて合成サンプルを適応的に生成します。

from imblearn.over_sampling import ADASYN  adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)

ログイン後にコピー

4. RandomUnderSampler

RandomUnderSampler は、多数派クラスからサンプルをランダムに削除します。

from imblearn.under_sampling import RandomUnderSampler  rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)

ログイン後にコピー

5、Tomek Links

Tomek Links は、さまざまなタイプの最近傍のペアを削除して、複数のサンプルの数を減らすことができます

 from imblearn.under_sampling import TomekLinks  tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)

ログイン後にコピー

6、SMOTEENN (SMOTE 編集最近傍)

SMOTEENN は、SMOTE と編集最近傍を組み合わせたものです。

 from imblearn.combine import SMOTEENN  smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)

ログイン後にコピー

7. SMOTETomek (SMOTE Tomek Links)

SMOTEENN は、SMOTE と Tomek Links を組み合わせて、オーバーサンプリングとアンダーサンプリングを実行します。

 from imblearn.combine import SMOTETomek  smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)

ログイン後にコピー

8、EasyEnsemble

EasyEnsemble は、ほとんどのクラスのバランスのとれたサブセットを作成できる統合メソッドです。

 from imblearn.ensemble import EasyEnsembleClassifier  ee = EasyEnsembleClassifier() ee.fit(X, y)

ログイン後にコピー

9. BalancedRandomForestClassifier

BalancedRandomForestClassifier は、ランダムフォレストとバランスの取れたサブサンプルを組み合わせるアンサンブル手法です。

 from imblearn.ensemble import BalancedRandomForestClassifier  brf = BalancedRandomForestClassifier() brf.fit(X, y)

ログイン後にコピー

10. RUSBoostClassifier

RUSBoostClassifier は、ランダムアンダーサンプリングとエンハンスメントを組み合わせたアンサンブルメソッドです。

from imblearn.ensemble import RUSBoostClassifier  rusboost = RUSBoostClassifier() rusboost.fit(X, y)

ログイン後にコピー

概要

不均衡なデータを処理することは、正確な機械学習モデルを構築するために重要です。これらの Python ライブラリは、この問題に対処するためのさまざまな手法を提供します。データセットと問題に応じて、データのバランスを効果的に行うための最も適切な方法を選択できます。

以上が不均衡なデータを処理するための Python ライブラリのトップ 10の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。