Pandas ialah perpustakaan pemprosesan data yang boleh digunakan untuk membaca, memanipulasi dan menganalisis data. Dalam artikel ini, kami akan memperkenalkan cara membaca fail txt menggunakan Pandas. Artikel ini ditujukan untuk pemula yang ingin belajar Panda.
- Import perpustakaan Pandas
Mula-mula, import perpustakaan Pandas dalam Python.
import pandas as pd
Salin selepas log masuk
- Baca fail txt
Sebelum membaca fail txt, kita perlu memahami beberapa parameter biasa fail txt:
- pembatas: pembatas
- pengepala: sama ada terdapat pengepala
nama: nama jadual anda boleh menentukan nama lajur secara manual index_col: Tetapkan lajur tertentu sebagai lajur indeks, bukan ditetapkan secara lalai skiprows: Langkau bilangan baris sebelumnya sep: Tentukan pemisah
Contoh: Katakan kita mempunyai fail bernama "data.txt". Pertama, kita perlu membaca fail txt menggunakan fungsi read_table(). read_table() menyediakan cara yang sangat fleksibel untuk membaca data teks.
data = pd.read_table('data.txt', delimiter=',', header=0)
Salin selepas log masuk
Lihat data yang dibaca
Anda boleh menggunakan fungsi
untuk melihat beberapa baris pertama data yang dibaca. 5 baris pertama data dipaparkan secara lalai. .head()
print(data.head())
Salin selepas log masuk
Pembersihan Data
Selepas membaca data, kita perlu melakukan pembersihan dan transformasi yang diperlukan padanya. Ini biasanya termasuk mengalih keluar lajur yang tidak berguna, mengalih keluar nilai yang hilang, menamakan semula nama lajur, menukar jenis data, dsb. Berikut ialah beberapa kaedah pembersihan data biasa.
data['ColumnName'] = data['ColumnName'].astype(str)
data['ColumnName'] = data['ColumnName'].astype(int)
Salin selepas log masuk
Selepas pembersihan data, kita boleh mulakan analisis data. Pandas menyediakan kaedah yang kaya untuk memproses data. Sebagai contoh, untuk mengira jumlah lajur:
total = data['ColumnName'].sum()
print(total)
Salin selepas log masuk
Dalam Panda, anda boleh mengumpulkan data anda menggunakan fungsi groupby(). Sebagai contoh, katakan kita ingin mengumpulkan data mengikut nama dan mengira purata selepas mengumpulkan:
grouped_data = data.groupby(['Name']).mean()
print(grouped_data.head())
Salin selepas log masuk
Visualisasi Data
Akhir sekali, melalui visualisasi data, kita dapat memahami arah aliran dan corak dalam data dengan lebih jelas. import matplotlib.pyplot as plt
plt.bar(data['ColumnName'], data['Count'])
plt.xlabel('ColumnName')
plt.ylabel('Count')
plt.title('ColumnName vs Count')
plt.show()
Salin selepas log masuk
Ringkasnya, Pandas menyediakan cara yang mudah dan pantas untuk membaca, membersihkan dan menganalisis data. Melalui artikel ini, pembaca boleh mempelajari cara menggunakan Panda untuk membaca fail txt dan cara melakukan pembersihan data, analisis dan visualisasi. Atas ialah kandungan terperinci Panduan permulaan cepat untuk membaca fail txt dengan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!