基本的な Pandas データフィルタリングの方法とテクニック-Python チュートリアル-php.cn

基本的な Pandas データフィルタリングの方法とテクニック

WBOY

リリース： 2024-01-24 09:11:20

オリジナル

1472 人が閲覧しました

基本的な Pandas データフィルタリングの方法とテクニック

Pandas データフィルタリングの基本的な方法とテクニック、特定のコードサンプルが必要です

はじめに:
データ分析と処理の継続的な開発により、Pandas はデータサイエンティストとアナリストにとって優れたツールです。 Pandas は、NumPy に基づくオープンソースのデータ分析ライブラリであり、データの読み取り、クリーニング、分析、視覚化に適した柔軟で効率的なデータ構造を提供します。データ分析プロセスにおいて、データフィルタリングは非常に重要なリンクです。この記事では、Pandas データフィルタリングの基本的な方法とテクニックを紹介し、読者がよりよく理解して適用できるように、具体的なコード例を示します。

1. Pandas データ構造の確認
具体的なデータスクリーニングを開始する前に、まず Pandas の主要なデータ構造 (Series と DataFrame) を確認しましょう。

1.1 Series
Series は、1 次元配列に似たオブジェクトで、データとインデックスのセットで構成されます。データは任意のタイプにすることができ、インデックスはデータを見つけてアクセスするのに役立つラベルです。次の方法でシリーズを作成できます:

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

ログイン後にコピー

1.2 DataFrame
DataFrame は Pandas で最も一般的に使用されるデータ構造であり、2 次元配列またはテーブルに似たオブジェクトとして表示できます。これは順序付けられた列のセットで構成されており、それぞれの列は異なるデータ型 (整数、浮動小数点、文字列など) にすることができます。

data = {'Name': ['Tom', 'John', 'Amy', 'Lisa'],
        'Age': [25, 30, 28, 35],
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']}
df = pd.DataFrame(data)

ログイン後にコピー

2. Pandas のデータフィルタリング手法と手法
Pandas には豊富なデータフィルタリング手法と手法が用意されており、一般的に使用されるいくつかの手法を以下に紹介します。

2.1 基本的な条件フィルタリング
指定した条件によるフィルタリングは、最も一般的なデータフィルタリング方法の 1 つです。 Pandas は、SQL の WHERE キーワードと同様の機能を提供し、比較演算子 (==、!=、>、<、>=、<=) を使用して、データフレーム全体に条件を適用できます。例は次のとおりです。

# 筛选年龄大于等于30的数据
df[df['Age'] >= 30]

ログイン後にコピー

2.2 複数条件フィルタリング
単一の条件によるフィルタリングに加えて、論理演算子 (and、or、not) や括弧を使用して複数の条件を組み合わせてフィルタリングすることもできます。例は次のとおりです。

# 筛选年龄大于等于30并且城市为上海的数据
df[(df['Age'] >= 30) & (df['City'] == 'Shanghai')]

ログイン後にコピー

2.3 isin() 関数のフィルタリング
isin() 関数は、特定の条件を満たすデータをフィルタリングするのに役立つ非常に便利なフィルタリングメソッドです。例は次のとおりです。

# 筛选城市为上海或深圳的数据
df[df['City'].isin(['Shanghai', 'Shenzhen'])]

ログイン後にコピー

2.4 query() 関数 filtering
query() 関数は、Pandas が提供する高度なフィルタリングメソッドであり、1 行のコードで複雑なデータフィルタリングを実装できます。例は次のとおりです。

# 使用query()函数筛选年龄大于等于30的数据
df.query('Age >= 30')

ログイン後にコピー

2.5 列名によるフィルター
場合によっては、特定の列のデータのみをフィルターで除外する必要があり、列名を指定してフィルターできます。例は次のとおりです。

# 筛选出名字和城市两列的数据
df[['Name', 'City']]

ログイン後にコピー

2.6 フィルタリングに loc と iloc を使用する
上記のメソッドに加えて、Pandas はデータフィルタリング用に 2 つの特別な属性 loc と iloc も提供します。 loc はラベルに基づいたインデックス付けに使用され、iloc は位置に基づいたインデックス付けに使用されます。例は次のとおりです。

# 使用loc基于标签进行筛选
df.loc[df['Age'] >= 30, ['Name', 'City']]

# 使用iloc基于位置进行筛选
df.iloc[df['Age'] >= 30, [0, 2]]

ログイン後にコピー

3. 概要
この記事では、Pandas データフィルタリングの基本的な方法とテクニックを紹介し、具体的なコード例を示します。これらの方法をマスターすることで、データを柔軟にフィルタリングおよび処理して、必要な情報を抽出することができます。上記の方法に加えて、Pandas は実際のニーズに基づいてさらに学習し探索するための他の多くの強力な機能とツールも提供します。この記事が読者のデータスクリーニングに役立ち、実際のアプリケーションでのデータ分析と処理に Pandas をより効果的に活用できるようになれば幸いです。

以上が基本的な Pandas データフィルタリングの方法とテクニックの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。