Python で XML/HTML エンティティを Unicode 文字列に変換する方法

Susan Sarandon
リリース: 2024-11-04 06:36:02
オリジナル
499 人が閲覧しました

How to Convert XML/HTML Entities to Unicode Strings in Python?

Python で XML/HTML エンティティを Unicode 文字列に変換する

Web スクレイピングでは、非 ASCII 文字を表すためにエンティティが頻繁に使用されます。これらのエンティティを Python でデコードし、対応する Unicode 表現を取得するには、標準ライブラリの HTMLParser モジュールで利用可能な unescape() 関数を利用できます。

例:

とします。次のエンティティがあります:

ǎ
ログイン後にコピー

これは、声調記号付きの「Ǝ」を表します。これに相当するバイナリは 01ce (16 ビット) です。このエンティティを Unicode 値 u'u01ce' に変換するには:

Python 3.4 以前:

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
ログイン後にコピー

Python 3.4 以降:

import html
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
ログイン後にコピー

結果の unicode_string には、エンティティが実際の Unicode 値に置き換えられた文字列の目的の Unicode 表現が含まれます。

以上がPython で XML/HTML エンティティを Unicode 文字列に変換する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート