Python의 데이터 랭글링 기술

PHPz
풀어 주다: 2023-06-10 18:28:38
원래의
1166명이 탐색했습니다.

Python은 데이터 과학 분야에서 널리 사용되는 고급 프로그래밍 언어로 데이터 수집, 정리, 분석 및 시각화에 널리 사용됩니다. 데이터 랭글링은 데이터 처리의 핵심 기술입니다. 이 기사에서는 독자가 데이터를 더 잘 처리하고 분석하는 데 도움이 되는 Python의 몇 가지 일반적인 데이터 랭글링 기술을 소개합니다.

  1. 데이터 유형 변환

데이터 정규화 과정에서 다양한 데이터 유형을 변환해야 하는 경우가 많습니다. 일반적인 데이터 유형에는 문자열, 정수, 부동 소수점 숫자 및 부울 값이 포함됩니다. Python은 int(), float(), str(), bool() 등과 같은 강력한 유형 변환 함수를 제공합니다. 이를 통해 하나의 데이터 유형을 다음과 같은 다른 데이터 유형으로 변환할 수 있습니다.

# 将字符串转换成整数 age_str = '18' age_int = int(age_str) # 将整数转换成字符串 age_int = 18 age_str = str(age_int) # 将浮点数转换成整数 height_float = 1.75 height_int = int(height_float) # 将整数转换成布尔值 num = 0 is_zero = bool(num) # False
로그인 후 복사
  1. Data deduplication

대량의 데이터를 처리할 때 중복된 데이터가 발생할 수 있으므로 데이터 중복 제거 기술을 사용해야 합니다. Python에서 set() 함수를 사용하면 목록에서 중복 요소를 빠르게 제거할 수 있습니다. 예:

# 去除列表中的重复元素 lst = [1, 2, 3, 2, 4, 1] lst_unique = list(set(lst)) print(lst_unique) # [1, 2, 3, 4]
로그인 후 복사
  1. 데이터 채우기

데이터 정규화 과정에서 때로는 더 나은 후속 작업을 위해 누락된 값을 채워야 하는 경우가 있습니다. 처리. Python의 fillna() 함수를 사용하면 데이터를 편리하게 채울 수 있습니다. 예:

# 对缺失值进行填充 import pandas as pd df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [18, None, 21], 'gender': ['F', 'M', None]}) df_fill = df.fillna(value={'age': df['age'].mean(), 'gender': 'U'}) print(df_fill)
로그인 후 복사

출력 결과는 다음과 같습니다.

name age gender 0 Alice 18.0 F 1 Bob 19.5 M 2 Charlie 21.0 U
로그인 후 복사
  1. Data reshaping

데이터 정규화 과정에서 데이터 재구성이 필요할 수 있습니다. 후속 처리를 더 좋게 만듭니다. Python에서 피봇() 함수를 사용하면 데이터의 모양을 쉽게 바꿀 수 있습니다. 예:

# 数据重塑 import pandas as pd df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'gender': ['F', 'M', 'M'], 'subject': ['Math', 'Math', 'English'], 'score': [90, 87, 88]}) df_res = df.pivot(index='name', columns='subject', values='score') print(df_res)
로그인 후 복사

출력 결과는 다음과 같습니다.

subject English Math name Alice NaN 90.0 Bob NaN 87.0 Charlie 88.0 NaN
로그인 후 복사
  1. Data merge

실제 작업에서 데이터는 일반적으로 다른 테이블에 저장되며 병합. Python에서 merge() 함수를 사용하면 데이터 병합을 용이하게 할 수 있습니다. 예:

# 数据合并 import pandas as pd df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [18, 19, 21], 'gender': ['F', 'M', 'M']}) df2 = pd.DataFrame({'name': ['Alice', 'Bob'], 'score': [90, 87]}) df_merge = pd.merge(df1, df2, on='name') print(df_merge)
로그인 후 복사

출력 결과는 다음과 같습니다.

name age gender score 0 Alice 18 F 90 1 Bob 19 M 87
로그인 후 복사

요약하면 Python의 데이터 변형 기술에는 데이터 유형 변환, 데이터 중복 제거, 데이터 채우기, 데이터 재구성이 포함됩니다. 데이터 병합 등 이러한 기술은 독자가 데이터를 더 잘 처리 및 분석하고 데이터 처리의 효율성과 정확성을 향상시키는 데 도움이 될 수 있습니다.

위 내용은 Python의 데이터 랭글링 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!