Python の文字列から非改行スペースを削除する
Beautiful Soup を使用して HTML ファイルを解析すると、スペースを表す xa0 Unicode 文字が発生する場合があります。この記事では、Python 2.7 でこれらの文字を効果的に削除し、通常のスペースに変換する方法について説明します。
この問題を解決するには、次のように xa0 を u' ' に置き換えるだけです。
<code class="python">string = string.replace(u'\xa0', u' ')</code>
xa0 文字は、Latin1 (ISO 8859-1) エンコーディングの非改行スペースを表します。 '' の代わりに u' ' を使用すると、Unicode スペースに確実に置き換えられます。
.encode() の使用後に xc2 文字が見つかった場合は、Unicode が UTF-8 にエンコードされていることを示します。 xa0 は、UTF-8 では 2 バイトの xc2xa0 で表されます。
Python での Unicode 処理を理解するには、http://docs.python.org/howto/unicode.html のドキュメントを参照してください。この回答は 2012 年に遡ることに注意してください。 Python は進化したため、Unicode 正規化に unicodedata.normalize の使用を検討する必要があります。
以上がPython の文字列から非改行スペースを削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。