Apabila berurusan dengan data teks, tugas biasa melibatkan pemisahan rentetan kepada perkataan individu. Kaedah str.split() Python menawarkan penyelesaian yang mudah, tetapi ia hanya menyokong satu pembatas sebagai hujahnya. Had ini boleh menjadi halangan apabila berurusan dengan teks yang mengandungi pelbagai jenis sempadan perkataan, seperti tanda baca.
Modul semula Python menyediakan alternatif yang hebat: re.split(). Fungsi ini membolehkan anda menentukan corak untuk digunakan sebagai pembatas sempadan perkataan. Corak boleh termasuk ungkapan biasa untuk memadankan berbilang jenis sempadan secara serentak.
Sebagai contoh, untuk memisahkan rentetan berikut kepada perkataan, mengendalikan kedua-dua ruang putih dan tanda baca sebagai sempadan perkataan:
"Hey, you - what are you doing here!?"
Anda boleh menggunakan corak ungkapan biasa berikut:
'\W+'
Corak ini sepadan dengan mana-mana jujukan aksara bukan perkataan (abjad, angka atau garis bawah). Apabila digunakan dengan re.split(), ia akan memisahkan rentetan pada semua kemunculan aksara ini, dengan berkesan mencipta senarai perkataan.
Begini cara anda boleh menggunakannya dalam Python:
import re text = "Hey, you - what are you doing here!?" words = re.split('\W+', text) print(words)
Output:
['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']
Seperti yang anda lihat, re.split() secara berkesan memisahkan rentetan kepada perkataan individu, mengekalkan sempadan perkataan yang betul walaupun terdapat beberapa pembatas. Fleksibiliti ini menjadikannya alat yang berharga untuk mengendalikan senario penghuraian teks yang kompleks, di mana pembatas sempadan berbilang perkataan ditemui.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Memisahkan Rentetan kepada Perkataan Menggunakan Pembatas Sempadan Berbilang Kata dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!