Mengalih keluar Ruang Tidak Terputus daripada Rentetan dalam Python
Apabila menghuraikan fail HTML menggunakan Beautiful Soup, anda mungkin menghadapi aksara Unicode xa0 yang mewakili ruang. Artikel ini membincangkan cara untuk mengalih keluar aksara ini dengan berkesan dalam Python 2.7 dan menukarnya menjadi ruang biasa.
Untuk menyelesaikan isu ini, cuma gantikan xa0 dengan u' ' seperti berikut:
<code class="python">string = string.replace(u'\xa0', u' ')</code>
The aksara xa0 mewakili ruang tidak pecah dalam pengekodan Latin1 (ISO 8859-1). Dengan menggunakan u' ' dan bukannya '', anda memastikan ia digantikan dengan ruang Unicode.
Apabila anda menemui aksara xc2 selepas menggunakan .encode(), ia menunjukkan Unicode telah dikodkan ke dalam UTF-8. xa0 diwakili oleh dua bait xc2xa0 dalam UTF-8.
Untuk memahami pengendalian Unicode dalam Python, rujuk dokumentasi di http://docs.python.org/howto/unicode.html. Ambil perhatian bahawa jawapan ini bermula pada tahun 2012; Python telah berkembang dan anda kini harus mempertimbangkan untuk menggunakan unicodedata.normalize untuk penormalan Unicode.
Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar Ruang Tidak Pecah daripada Rentetan dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!