從Python 中的字串中刪除不間斷空格
使用Beautiful Soup 解析HTML 檔案時,您可能會遇到表示空格的xa0 Unicode 字元。本文介紹如何在 Python 2.7 中有效刪除這些字元並將它們轉換為常規空格。
要解決此問題,只需將xa0 替換為u' ',如下所示:
<code class="python">string = string.replace(u'\xa0', u' ')</code>
xa0 字元表示Latin1 (ISO 8859-1) 編碼中的不間斷空格。透過使用 u' ' 來代替 '',確保它被替換為 Unicode 空格。
使用 .encode() 後遇到 xc2 字元時,表示 Unicode 已編碼為 UTF-8。 xa0 由 UTF-8 中的兩個位元組 xc2xa0 表示。
要了解 Python 中的 Unicode 處理,請參閱 http://docs.python.org/howto/unicode.html 上的文件。請注意,這個答案可以追溯到 2012 年; Python 已經發展,您現在應該考慮使用 unicodedata.normalize 進行 Unicode 規範化。
以上是如何在 Python 中刪除字串中的不間斷空格?的詳細內容。更多資訊請關注PHP中文網其他相關文章!