Padanan Rentetan Separa dalam Bingkai Data Pandas
Menapis DataFrame berdasarkan kriteria rentetan ialah tugas biasa dalam analisis data. Walaupun padanan rentetan tepat adalah mudah menggunakan operator ==, padanan rentetan separa memerlukan pendekatan yang berbeza.
Satu pilihan ialah menggunakan ungkapan biasa, seperti yang ditunjukkan oleh coretan kod dalam soalan:
re.search(pattern, cell_in_question)
Walau bagaimanapun, untuk DataFrames yang besar, pendekatan ini boleh menjadi tidak cekap kerana sifat lelarannya.
Penyelesaian vektor menggunakan kaedah Pandas' Series.str tersedia dan amat disyorkan untuk prestasi yang lebih baik:
df[df['A'].str.contains("hello")]
Kaedah ini menggunakan fungsi contains() terbina dalam untuk menyemak sama ada subrentetan hadir dalam Siri rentetan. Ia mengembalikan topeng Boolean yang boleh digunakan untuk menapis DataFrame.
Dalam versi terdahulu Pandas (sebelum 0.8.1), sintaks yang sedikit berbeza telah digunakan:
df['A'].apply(lambda x: "hello" in x)
Tidak kira daripada pendekatan yang anda pilih, padanan rentetan separa dalam Pandas DataFrames ialah alat yang berkuasa untuk menapis data dengan cekap dan berkesan.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Melaksanakan Pemadanan Rentetan Separa dengan Cekap dalam Pandas DataFrames?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!