데이터 조작을 위해 팬더를 사용하여 CSV 파일을 읽는 단계 및 기술
소개:
데이터 분석 및 처리에서는 CSV 파일에서 데이터를 읽고 추가 작업 및 분석을 수행해야 하는 경우가 많습니다. pandas는 데이터 처리 및 분석을 위한 도구 세트를 제공하여 CSV 파일을 쉽게 처리하고 조작할 수 있게 해주는 강력한 Python 라이브러리입니다. 이 기사에서는 Pandas를 기반으로 CSV 파일을 읽는 단계와 기술을 소개하고 구체적인 코드 예제를 제공합니다.
1. 팬더 라이브러리 가져오기
팬더 라이브러리를 사용하기 전에 먼저 라이브러리를 가져와야 합니다. 다음 코드를 통해 이를 달성할 수 있습니다.
pandas를 pd로 가져오기
2. CSV 파일 읽기
CSV 파일 읽기는 pandas의 중요한 기능입니다. pandas는 후속 데이터 작업 및 분석을 용이하게 하기 위해 CSV 파일을 DataFrame 객체로 읽을 수 있는 read_csv() 함수를 제공합니다. 다음은 CSV 파일을 읽는 기본 코드 예제입니다.
data = pd.read_csv('file.csv')
위 코드에서 'file.csv'는 읽고 싶은 CSV 파일의 경로입니다. . 읽은 후 데이터는 data라는 DataFrame 개체에 저장됩니다.
3. 데이터 보기
CSV 파일을 읽은 후 head() 함수를 사용하여 데이터의 처음 몇 줄을 볼 수 있습니다. 이는 데이터의 구조와 데이터 정리의 필요성을 이해하는 데 매우 도움이 됩니다. 다음은 데이터를 보기 위한 코드 예제입니다.
print(data.head())
이 코드는 데이터의 처음 5개 행을 출력합니다.
4. 데이터 처리 및 운영
pandas는 데이터를 처리하고 운영하는 다양한 기능과 방법을 제공합니다. 아래에서는 일반적으로 사용되는 몇 가지 데이터 처리 기술을 소개합니다.
4.1 데이터 필터링
Pandas에서 제공하는 조건부 필터링 기능을 사용하면 필요한 데이터를 빠르게 필터링할 수 있습니다. 예를 들어 데이터에서 "city"가 "Beijing"인 데이터를 찾으려면 다음 코드를 사용할 수 있습니다.
filtered_data = data[data['city'] == 'Beijing']
In the 위 코드에서 data[' City'] == 'Beijing'은 데이터의 각 행이 조건을 충족하는지 여부를 나타내는 부울 값 시리즈를 반환합니다. 그런 다음 이 부울 시리즈를 인덱스로 사용하여 조건을 충족하는 데이터를 필터링하고 이를filtered_data에 저장합니다.
4.2 데이터 정렬
pandas는 데이터를 정렬하는 sort_values() 함수를 제공합니다. 다음은 "sales" 열을 기준으로 데이터를 내림차순으로 정렬하는 코드 예제입니다.
sorted_data = data.sort_values(by='sales', climbing=False)
위 코드는 데이터를 "sales" 열에 따라 정렬합니다. "sales" 열 내림차순으로 정렬하고 정렬된 결과를 sorted_data에 저장합니다.
4.3 데이터 그룹화 및 집계
pandas는 데이터 그룹화 및 집계 작업을 쉽게 구현할 수 있는 groupby() 함수와 agg() 함수를 제공합니다. 다음은 "City" 열을 기준으로 데이터를 그룹화하고 각 도시의 총 매출을 계산하는 코드 예제입니다.
grouped_data = data.groupby('City').agg({'Sales':'sum'})
위 코드는 "City" 열을 기준으로 데이터를 그룹화하고 agg() 함수를 사용하여 각 그룹(도시)의 총 매출을 계산합니다. 결과는 grouped_data에 저장됩니다.
5. 데이터 출력
데이터를 처리한 후 데이터를 CSV 파일이나 다른 형식의 파일로 출력할 수 있습니다. DataFrame 객체를 CSV 파일로 출력하려면 pandas의 to_csv() 함수를 사용하세요. 다음은 grouped_data를 CSV 파일로 출력하는 코드 예제입니다.
grouped_data.to_csv('grouped_data.csv')
위 코드는 grouped_data를 'grouped_data.csv'라는 이름의 CSV 파일로 출력합니다.
결론:
이 문서에서는 팬더를 사용하여 데이터 조작을 위해 CSV 파일을 읽는 기본 단계와 일반적인 기술을 소개하고 구체적인 코드 예제를 제공합니다. 이러한 기술을 익히면 CSV 파일을 쉽게 읽고 처리할 수 있으며 데이터 분석 및 데이터 작업을 빠르게 수행할 수 있습니다. Pandas 라이브러리를 사용하면 데이터 처리 효율성이 크게 향상되어 데이터 분석 작업이 더욱 편리하고 효율적으로 이루어집니다.
위 내용은 Pandas를 사용한 CSV 파일의 데이터 조작: 단계 및 팁의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!