データの急速な成長と継続的な蓄積により、データ クリーニングはデータ分析プロセスにおいて無視できない部分になりました。 Pandas は、Python で一般的に使用されるデータ分析ツール ライブラリです。効率的で柔軟なデータ構造を提供し、データのクリーニングをより簡単かつ迅速に行います。この記事では、Pandas を使用したデータ クリーニングの一般的な方法と、対応するコード例をいくつか紹介します。
まず、Pandas ライブラリをインポートする必要があります。インポートする前に、Pandas ライブラリが正しくインストールされていることを確認する必要があります。次のコマンドを使用してインストールできます:
pip install pandas
import pandas as pd
data = pd.read_csv('data.csv')
print(data.head())
データ クリーニング プロセスでは、欠損値の処理が一般的なタスクです。 。 Pandas は、欠損値の削除、欠損値の埋め込みなど、欠損値を処理するさまざまな方法を提供します。一般的に使用される方法の一部を次に示します。
欠損値の割合が小さく、データ分析全体にほとんど影響を与えない場合は、次のことを選択できます。欠損値の行または列を削除します。次のコードを使用して、欠損値のある行を削除できます:
data = data.dropna(axis=0) # 删除含有缺失值的行
axis=0 を
axis=1 に変更します。
欠損値を削除できない場合は、欠損値を埋めることを選択できます。 Pandas は、充填操作を実行するための
fillna 関数を提供します。次のコード例では、欠損値を 0 で埋めています。
data = data.fillna(0) # 将缺失值填充为0
欠損値に加えて、重複値も対処が必要な一般的な問題です。 Pandas は、重複値の検索、重複値の削除など、重複値を処理するさまざまなメソッドを提供します。一般的に使用される方法は次のとおりです。
duplicated 関数を使用すると、データ内に重複値が存在するかどうかを確認できます。 。次のコード例は、重複した値を含む行を返します。
duplicated_rows = data[data.duplicated()] print(duplicated_rows)
drop_duplicates 関数を使用すると、重複した値を行から削除できます。データ。次のコード例では、データ内の重複値を削除します。
data = data.drop_duplicates()
データ分析において、外れ値の処理は非常に重要なステップです。 Pandas は、外れ値の検索、外れ値の置換など、外れ値を処理するさまざまな方法を提供します。一般的に使用される方法をいくつか示します。
比較演算子を使用すると、データ内の外れ値を見つけることができます。次のコード例は、指定されたしきい値より大きい外れ値を返します。
outliers = data[data['column_name'] > threshold] print(outliers)
replace 関数を使用すると、データ内の異常値を置換できます。次のコード例では、異常値を指定された値に置き換えます。
data = data.replace(outliers, replacement)
この記事では、データ クリーニングに Pandas を使用する一般的な方法をいくつか紹介し、対応するコード例を示します。ただし、データ クリーニングは複雑なプロセスであり、状況によってはさらに多くの処理手順が必要になる場合があります。この記事が、読者がすぐにデータ クリーニングを開始し、Pandas を使用して、データ分析の効率と精度を向上させるのに役立つことを願っています。
以上がパンダを使用して効率的なデータ クリーニング手順を学習するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。