インスタンス指向パンダデータ分析手法：データローディングと特徴量エンジニアリングの実戦-Python チュートリアル-php.cn

インスタンス指向パンダデータ分析手法：データローディングと特徴量エンジニアリングの実戦

WBOY

リリース： 2024-01-13 10:26:05

オリジナル

702 人が閲覧しました

インスタンス指向パンダデータ分析手法：データローディングと特徴量エンジニアリングの実戦

Pandas データ分析手法の実践: データの読み込みから特徴エンジニアリングまで、特定のコード例が必要です

はじめに:
Pandas は、世界で広く使用されているデータ分析ライブラリです。 Python は、豊富なデータ処理および分析ツールを提供します。この記事では、データの読み込みから特徴エンジニアリングまでの具体的な方法を紹介し、関連するコード例を示します。

1. データの読み込み
データの読み込みはデータ分析の最初のステップです。 Pandas では、ローカルファイルの読み取り、ネットワークデータの読み取り、データベースの読み取りなど、さまざまな方法を使用してデータを読み込むことができます。

ローカルファイルの読み取り
Pandas の read_csv() 関数を使用して、ローカル CSV ファイルを簡単に読み取ります。以下は例です。

import pandas as pd

data = pd.read_csv("data.csv")

ログイン後にコピー

ネットワークデータの読み取り
Pandas には、ネットワークデータを読み取る機能も提供されます。 read_csv() 関数を使用して、ネットワークアドレスをパラメーターとして渡すことができます。例は次のとおりです:

import pandas as pd

url = "https://www.example.com/data.csv"
data = pd.read_csv(url)

ログイン後にコピー

データベースの読み取り
データがデータベースの場合は、Pandas を使用して提供できます。読み取りには read_sql() 関数が使用されます。まず、Python の SQLAlchemy ライブラリを使用してデータベースに接続し、次に Pandas の read_sql() 関数を使用してデータを読み取る必要があります。以下は例です:

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('sqlite:///database.db')
data = pd.read_sql("SELECT * FROM table", engine)

ログイン後にコピー

2. データのプレビューと処理
データをロードした後、Pandas が提供するメソッドを使用してデータをプレビューおよび予備処理できます。

データプレビュー
head() メソッドと tail() メソッドを使用して、データの最初と最後の数行をプレビューできます。例:

data.head()  # 预览前5行
data.tail(10)  # 预览后10行

ログイン後にコピー

データクリーニング
データのクリーニングは、データ分析における重要な手順の 1 つです。 Pandas は、欠損値、重複値、外れ値を処理するための一連のメソッドを提供します。

欠損値の処理
isnull() 関数を使用してデータが欠損値であるかどうかを判断し、fillna() メソッドを使用して欠損値を埋めることができます。。以下に例を示します。

data.isnull()  # 判断缺失值
data.fillna(0)  # 填充缺失值为0

ログイン後にコピー

重複値の処理
duplicated() メソッドを使用してデータが重複値であるかどうかを判断し、drop_duplicates() メソッドを使用して重複した値を削除します。サンプルコードは以下のとおりです。

data.duplicated()  # 判断重复值
data.drop_duplicates()  # 去除重复值

ログイン後にコピー

異常値の処理
異常値に対しては、条件判定やインデックス演算を使用して処理することができます。以下は例です:

data[data['column'] > 100] = 100  # 将大于100的值设为100

ログイン後にコピー

3. 特徴エンジニアリング
特徴エンジニアリングはデータ分析の重要なステップです。生データをモデリングにより適した特徴に変換することで、モデルのパフォーマンスを向上させることができます。改善されること。 Pandas は、特徴エンジニアリングのための複数の方法を提供します。

機能の選択
Pandas の列操作と条件判断を使用して、特定の機能を選択できます。以下は例です:

selected_features = data[['feature1', 'feature2']]

ログイン後にコピー

特徴エンコーディング
モデリングの前に、特徴を機械学習アルゴリズムで処理できる形式に変換する必要があります。 Pandas は、ワンホットエンコーディング用の get_dummies() メソッドを提供します。以下は例です:

encoded_data = pd.get_dummies(data)

ログイン後にコピー

特徴スケーリング
数値特徴の場合、特徴スケーリングに Pandas の MinMaxScaler() メソッドまたは StandardScaler() メソッドを使用できます。サンプルコードは次のとおりです。

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)

ログイン後にコピー

フィーチャーの構築
元のフィーチャーに対して基本的な操作と組み合わせを実行することで、新しいフィーチャーを構築できます。サンプルコードは次のとおりです。

data['new_feature'] = data['feature1'] + data['feature2']

ログイン後にコピー

結論:
この記事では、Pandas データ分析におけるデータの読み込みから特徴量エンジニアリングまでの方法を紹介し、具体的なコード例を通じて関連する操作を示します。 Pandas の強力なデータ処理および分析機能を使用すると、データ分析とマイニングをより効率的に行うことができます。実際のアプリケーションでは、特定のニーズに応じてさまざまな操作や方法を選択し、データ分析の精度と効果を向上させることができます。

以上がインスタンス指向パンダデータ分析手法：データローディングと特徴量エンジニアリングの実戦の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。