BeautifulSoup を使用して HTML コンテンツを解析すると、HTML エンティティがエンコードされたままになるという問題が発生する可能性があります。これらのエンティティをデコードして実際のテキスト コンテンツを取得するには、使用している Python のバージョンに応じてさまざまなアプローチを使用できます。
Python 3.4 以降では、html.unescape()関数は、HTML エンティティをデコードするための簡単な方法を提供します。
import html print(html.unescape('£682m'))
これにより、目的の出力が返されます。 "£682m".
Python バージョン 2.6 から 3.3 の場合、HTMLParser.unescape() メソッドが便利です。
try: # Python 2.6-2.7 from HTMLParser import HTMLParser except ImportError: # Python 3 from html.parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
あるいは、次のようになります。 6 つの互換性ライブラリによりモジュールのインポートが簡素化され、HTMLParser の使用が可能になります。 Python バージョン:
from six.moves.html_parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
これらの Python ツールを利用することで、開発者は HTML エンティティを効率的にデコードし、解析ニーズに応じて必要なテキスト コンテンツを取得できます。
以上がPython で HTML エンティティをデコードするには?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。