Pandas로 CSV 파일을 읽는 방법
개요:
CSV(쉼표로 구분된 값)는 쉼표나 기타 특정 문자를 필드 값의 구분 기호로 사용하는 일반적인 스프레드시트 파일 형식입니다. Pandas는 CSV 파일을 포함한 다양한 데이터 파일을 쉽게 읽고, 처리하고, 분석할 수 있는 강력한 데이터 처리 라이브러리입니다. 이 기사에서는 Pandas 라이브러리를 사용하여 CSV 파일을 읽는 방법을 소개하고 특정 코드 예제를 제공합니다.
단계:
필요한 라이브러리 가져오기
import pandas as pd
먼저 Pandas 라이브러리를 가져와야 합니다.
Pandas의 read_csv 함수를 사용하여 CSV 파일 읽기
data = pd.read_csv('file_path.csv')
이 단계에서는 read_csv 함수를 사용하여 CSV 파일을 읽습니다. file_path.csv를 실제 파일의 경로 및 파일 이름으로 바꿔야 합니다. 이 함수는 파일 내용을 data라는 DataFrame 개체에 로드합니다.
CSV 파일의 필드 구분 기호가 쉼표가 아닌 다른 문자인 경우 sep 매개 변수를 사용하여 구분 기호를 지정할 수 있습니다. 예를 들어 구분 기호가 세미콜론인 경우 코드는 다음과 같습니다.
data = pd.read_csv('file_path.csv', sep=';')
데이터 보기
print(data.head())
head 함수를 사용하면 데이터를 보기 위해 데이터 세트의 처음 몇 행을 인쇄할 수 있습니다. 콘텐츠. head 함수의 기본 매개변수는 5이며, 이는 데이터의 처음 5줄을 인쇄함을 나타냅니다.
데이터의 차원(행 및 열 수) 보기
print(data.shape)
모양 속성은 (행 수, 열 수)와 같은 DataFrame의 차원 정보를 반환할 수 있습니다.
열 이름 보기
print(data.columns)
columns 속성은 DataFrame의 열 이름 목록을 반환할 수 있습니다.
데이터의 통계 요약 보기
print(data.describe())
설명 함수는 평균, 표준 편차, 최소값, 최대값 등을 포함한 데이터의 통계 요약 정보를 반환할 수 있습니다.
데이터 필터링
예를 들어 특정 조건에서 데이터의 하위 집합을 얻기 위해 데이터를 필터링할 수 있습니다.
filtered_data = data[data['column_name'] > 10]
위 예에서는 열 이름이 'column_name'이고 값이 10보다 큰 데이터를 필터링했습니다. .
데이터 정렬
sorted_data = data.sort_values(by='column_name', ascending=True)
sort_values 함수를 사용하면 데이터를 정렬하고, 지정된 열 이름에 따라 정렬하고, 오름차순 또는 내림차순을 지정할 수 있습니다.
Save data
data.to_csv('new_file_path.csv', index=False)
to_csv 함수는 DataFrame 개체를 새로운 CSV 파일로 저장할 수 있습니다. new_file_path.csv를 실제로 저장하려는 파일 이름과 경로로 바꿔야 합니다. index=False 매개변수는 데이터의 인덱스가 저장되지 않음을 나타냅니다.
요약:
이 글에서는 Pandas를 사용하여 CSV 파일을 읽는 단계를 소개하고 구체적인 코드 예제를 제공합니다. Pandas는 데이터를 쉽게 처리하고 분석할 수 있는 다양한 기능과 방법을 제공합니다. 이러한 기능을 사용하면 CSV 파일의 데이터를 더 잘 활용할 수 있습니다.
위 내용은 Pandas 라이브러리를 사용하여 CSV 파일을 읽는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!