Pandas를 사용하여 대용량 데이터 세트를 처리하는 방법
빅 데이터 시대가 도래하면서 데이터 세트의 크기와 복잡성도 증가하고 있습니다. 대규모 데이터 세트를 효율적으로 처리하는 방법은 데이터 분석가와 데이터 과학자에게 중요한 문제입니다. Python 데이터 분석 라이브러리인 pandas는 대규모 데이터 세트를 신속하게 처리하는 데 도움이 되는 유연하고 효율적인 데이터 처리 도구를 제공합니다. 이 기사에서는 Pandas를 사용하여 대규모 데이터 세트를 처리하는 방법을 소개하고 몇 가지 코드 예제를 제공합니다.
먼저 pandas 라이브러리를 설치해야 합니다. pip 명령을 사용하여 설치할 수 있습니다:
pip install pandas
설치가 완료된 후 Python 스크립트에서 pandas 라이브러리를 가져와야 합니다.
import pandas as pd
대규모 데이터 세트를 처리하기 전에 다음을 수행해야 합니다. 데이터 구조의 팬더에 데이터를 로드합니다. Pandas는 다양한 데이터 구조를 제공하며 가장 일반적으로 사용되는 것은 DataFrame입니다. DataFrame은 데이터베이스 테이블이나 Excel 데이터 테이블과 유사하며 데이터를 행과 열로 구성할 수 있습니다.
다음은 CSV 파일을 로드하는 샘플 코드입니다.
df = pd.read_csv('data.csv')
여기에서는 데이터 세트가 data.csv라는 CSV 파일이라고 가정합니다. read_csv() 함수를 사용하여 CSV 파일을 DataFrame에 로드할 수 있습니다.
데이터 처리를 시작하기 전에 먼저 데이터의 차원, 열 이름, 데이터 유형 등과 같은 데이터 세트의 기본 정보를 확인할 수 있습니다. 다음 코드를 사용하여 DataFrame의 정보를 볼 수 있습니다.
# 查看数据维度 print(df.shape) # 查看列名 print(df.columns) # 查看数据类型 print(df.dtypes) # 查看前几行数据 print(df.head())
대규모 데이터 세트에는 종종 누락된 값, 중복된 값, 이상치 및 기타 문제가 포함되어 있으므로 데이터를 정리하고 전처리해야 합니다. pandas는 이러한 문제를 해결하기 위한 일련의 기능과 방법을 제공합니다.
4.1 누락된 값 처리
# 检查每列的缺失值数量 print(df.isnull().sum()) # 删除包含缺失值的行 df = df.dropna() # 填充缺失值 df = df.fillna(value=0)
4.2 중복된 값 처리
# 检查是否有重复值 print(df.duplicated().sum()) # 删除重复值 df = df.drop_duplicates()
4.3 이상값 처리
# 检查是否有异常值 print(df.describe()) # 处理异常值 df = df[df['age'] > 0]
데이터를 정리한 후 데이터 분석 및 연산을 수행할 수 있습니다. pandas는 데이터 분석 및 운영을 지원하는 다양한 기능과 방법을 제공합니다.
5.1 데이터 필터링
# 筛选出age大于30的数据 df_filtered = df[df['age'] > 30] # 使用多个条件筛选数据 df_filtered = df[(df['age'] > 30) & (df['gender'] == '男')]
5.2 데이터 정렬
# 按照age降序排序 df_sorted = df.sort_values('age', ascending=False) # 按照多个列进行排序 df_sorted = df.sort_values(['age', 'gender'], ascending=[False, True])
5.3 데이터 집계
# 计算age的平均值 average_age = df['age'].mean() # 按照gender分组计算age的平均值 average_age_by_gender = df.groupby('gender')['age'].mean()
마지막으로 팬더를 다른 데이터 시각화 도구와 함께 사용하여 데이터 시각화를 표시할 수 있습니다.
import matplotlib.pyplot as plt # 绘制柱状图 df['age'].plot(kind='bar') # 绘制散点图 plt.scatter(df['age'], df['income']) # 绘制折线图 df.groupby('gender')['age'].mean().plot(kind='line') # 显示图形 plt.show()
위는 팬더를 사용하여 대규모 데이터 세트를 처리하는 방법에 대한 소개입니다. Pandas 기능과 방법을 합리적으로 사용함으로써 대규모 데이터 세트를 효율적으로 처리하고 분석할 수 있습니다. 물론 이는 pandas의 기본적인 사용법일 뿐입니다. Pandas는 특정 요구에 따라 학습하고 적용할 수 있는 고급 데이터 처리 및 분석 기능도 제공합니다.
위 내용은 팬더를 사용하여 대규모 데이터 세트를 처리하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!