Cara membaca fail CSV dengan Pandas
Ikhtisar:
CSV (Nilai Dipisahkan Koma) ialah format fail hamparan biasa yang menggunakan koma atau aksara khusus lain sebagai pemisah untuk nilai medan. Pandas ialah perpustakaan pemprosesan data yang berkuasa yang boleh membaca, memproses dan menganalisis pelbagai fail data dengan mudah, termasuk fail CSV. Artikel ini akan memperkenalkan cara menggunakan pustaka Pandas untuk membaca fail CSV dan memberikan contoh kod khusus.
Langkah:
Import perpustakaan yang diperlukan
import pandas as pd
Pertama, kita perlu mengimport perpustakaan Pandas.
Baca fail CSV menggunakan fungsi read_csv Pandas
data = pd.read_csv('file_path.csv')
Dalam langkah ini, kami menggunakan fungsi read_csv untuk membaca fail CSV. Anda perlu menggantikan file_path.csv dengan laluan dan nama fail fail sebenar anda. Fungsi ini akan memuatkan kandungan fail ke dalam objek DataFrame bernama data.
Jika pemisah medan dalam fail CSV bukan koma, tetapi aksara lain, anda boleh menggunakan parameter sep untuk menentukan pemisah. Sebagai contoh, jika pembatas ialah koma bertitik, kodnya adalah seperti berikut:
data = pd.read_csv('file_path.csv', sep=';')
Melihat data
print(data.head())
Dengan menggunakan fungsi kepala, kita boleh mencetak beberapa baris pertama set data untuk melihat data kandungan. Parameter lalai bagi fungsi kepala ialah 5, menunjukkan untuk mencetak lima baris data pertama.
Lihat dimensi data (bilangan baris dan lajur)
print(data.shape)
Atribut bentuk boleh mengembalikan maklumat dimensi DataFrame, seperti (bilangan baris, bilangan lajur).
Lihat nama lajur
print(data.columns)
harta lajur boleh mengembalikan senarai nama lajur DataFrame.
Lihat ringkasan statistik data
print(data.describe())
Fungsi huraikan boleh mengembalikan maklumat ringkasan statistik data, termasuk min, sisihan piawai, nilai minimum, nilai maksimum, dsb.
Tapis data
Sebagai contoh, kami boleh menapis data untuk mendapatkan subset data di bawah syarat-syarat tertentu:
filtered_data = data[data['column_name'] > 10]
Dalam contoh di atas, kami menapis data dengan nama lajur 'column_name' dengan nilai lebih daripada 10 .
Isih data
sorted_data = data.sort_values(by='column_name', ascending=True)
Dengan fungsi sort_values , kita boleh mengisih data, mengisih mengikut nama lajur yang ditentukan, dan menentukan tertib menaik atau menurun.
Simpan data
data.to_csv('new_file_path.csv', index=False)
fungsi ke_csv boleh menyimpan objek DataFrame sebagai fail CSV baharu. Anda perlu menggantikan new_file_path.csv dengan nama fail dan laluan yang sebenarnya anda mahu simpan. Parameter index=False menunjukkan bahawa indeks data tidak disimpan.
Ringkasan:
Artikel ini memperkenalkan langkah-langkah cara menggunakan Panda untuk membaca fail CSV dan memberikan contoh kod khusus. Pandas menyediakan pelbagai fungsi dan kaedah yang boleh memproses dan menganalisis data dengan mudah. Dengan menggunakan ciri ini, kami boleh menggunakan data dalam fail CSV dengan lebih baik.
Atas ialah kandungan terperinci Cara membaca fail CSV menggunakan pustaka Pandas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!