데이터 시각화 및 탐색적 분석을 위해 팬더를 사용하는 방법
소개:
데이터 분석 과정에서 시각화 및 탐색적 분석은 필수적인 링크입니다. Pandas는 Python의 매우 강력한 데이터 분석 라이브러리이며 데이터 처리 기능 외에도 데이터 시각화 및 탐색 분석을 위한 일련의 도구도 제공합니다. 이 기사에서는 데이터 시각화 및 탐색 분석을 위해 팬더를 사용하는 방법을 소개하고 구체적인 코드 예제를 제공합니다.
1. 데이터 시각화
1. 꺾은선형 차트
꺾은선형 차트는 시간에 따른 데이터 변화 추세를 보여주는 데 사용할 수 있는 일반적으로 사용되는 데이터 시각화 방법입니다. 팬더를 사용하여 꺾은선형 차트를 그리는 것은 매우 간단합니다. DataFrame의 플롯 메서드를 호출하기만 하면 됩니다. 다음은 샘플 코드입니다.
import pandas as pd # 创建一个DataFrame data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'], '销售额': [100, 200, 150, 180]} df = pd.DataFrame(data) # 将日期列转换成日期类型 df['日期'] = pd.to_datetime(df['日期']) # 设置日期列为索引 df.set_index('日期', inplace=True) # 绘制折线图 df.plot()
2. 히스토그램
히스토그램은 다양한 범주의 데이터를 비교하는 일반적인 시각화 방법입니다. 마찬가지로, pandas를 사용하여 히스토그램을 그리는 것도 매우 간단합니다. DataFrame의 플롯 메서드를 호출하고 종류 매개변수를 'bar'로 설정하기만 하면 됩니다. 다음은 샘플 코드입니다.
import pandas as pd # 创建一个DataFrame data = {'城市': ['北京', '上海', '广州', '深圳'], '人口': [2152, 2424, 1348, 1303]} df = pd.DataFrame(data) # 设置城市列为索引 df.set_index('城市', inplace=True) # 绘制柱状图 df.plot(kind='bar')
3. 산점도
산점도는 두 수치 변수 간의 상관 관계를 표시하는 데 자주 사용됩니다. Pandas는 산점도 그리기 기능도 제공합니다. 다음은 샘플 코드입니다.
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 绘制散点图 df.plot.scatter(x='身高', y='体重')
2. 탐색적 분석
1. 기본 통계 분석
pandas는 평균, 중앙값, 최소값, 최대값 등 기본 통계 분석을 위한 일련의 방법을 제공합니다. 다음은 샘플 코드입니다.
import pandas as pd # 创建一个DataFrame data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [18, 20, 22, 24], '身高': [170, 175, 180, 185]} df = pd.DataFrame(data) # 输出年龄的平均值、中位数、最小值、最大值等统计量 print('平均年龄:', df['年龄'].mean()) print('年龄中位数:', df['年龄'].median()) print('最小年龄:', df['年龄'].min()) print('最大年龄:', df['年龄'].max())
2. 상관 분석
일반적인 방법에는 상관 계수와 공분산이 있습니다. 다음은 샘플 코드입니다.
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 计算体重和身高的相关系数和协方差 print('相关系数:', df['体重'].corr(df['身高'])) print('协方差:', df['体重'].cov(df['身高']))
3. 결측값 처리
pandas는 isnull, fillna, dropna 등과 같은 결측값 처리를 위한 일련의 방법을 제공합니다. 다음은 샘플 코드입니다.
import pandas as pd import numpy as np # 创建一个包含缺失值的DataFrame data = {'姓名': ['张三', '李四', np.nan, '赵六'], '年龄': [18, 20, np.nan, 24]} df = pd.DataFrame(data) # 判断哪些值是缺失值 print(df.isnull()) # 填充缺失值 df.fillna(0, inplace=True) # 删除包含缺失值的行 df.dropna(inplace=True)
이 글에서는 데이터 시각화 및 탐색 분석을 위해 Pandas를 사용하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 이러한 기술을 익히면 보다 유연하게 데이터를 처리하고, 데이터를 분석하고, 의미 있는 결론을 도출할 수 있습니다.
위 내용은 Pandas를 사용한 데이터 시각화 및 탐색적 데이터 분석을 위한 팁과 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!