Bagaimanakah Saya Boleh Melaksanakan Pemadanan Rentetan Separa dengan Cekap dalam Pandas DataFrames?-Tutorial Python-php.cn

Bagaimanakah Saya Boleh Melaksanakan Pemadanan Rentetan Separa dengan Cekap dalam Pandas DataFrames?

Patricia Arquette

Lepaskan： 2024-12-16 15:15:15

asal

877 orang telah melayarinya

How Can I Efficiently Perform Partial String Matching in Pandas DataFrames?

Padanan Rentetan Separa dalam Bingkai Data Pandas

Menapis DataFrame berdasarkan kriteria rentetan ialah tugas biasa dalam analisis data. Walaupun padanan rentetan tepat adalah mudah menggunakan operator ==, padanan rentetan separa memerlukan pendekatan yang berbeza.

Satu pilihan ialah menggunakan ungkapan biasa, seperti yang ditunjukkan oleh coretan kod dalam soalan:

re.search(pattern, cell_in_question)

Salin selepas log masuk

Walau bagaimanapun, untuk DataFrames yang besar, pendekatan ini boleh menjadi tidak cekap kerana sifat lelarannya.

Penyelesaian vektor menggunakan kaedah Pandas' Series.str tersedia dan amat disyorkan untuk prestasi yang lebih baik:

df[df['A'].str.contains("hello")]

Salin selepas log masuk

Kaedah ini menggunakan fungsi contains() terbina dalam untuk menyemak sama ada subrentetan hadir dalam Siri rentetan. Ia mengembalikan topeng Boolean yang boleh digunakan untuk menapis DataFrame.

Dalam versi terdahulu Pandas (sebelum 0.8.1), sintaks yang sedikit berbeza telah digunakan:

df['A'].apply(lambda x: "hello" in x)

Salin selepas log masuk

Tidak kira daripada pendekatan yang anda pilih, padanan rentetan separa dalam Pandas DataFrames ialah alat yang berkuasa untuk menapis data dengan cekap dan berkesan.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Melaksanakan Pemadanan Rentetan Separa dengan Cekap dalam Pandas DataFrames?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!