使用 BeautifulSoup 解析 HTML 內容時,可能會遇到 HTML 實體保持編碼狀態的問題。要解碼這些實體並取得實際文字內容,可以根據所使用的 Python 版本採用各種方法。
在Python 3.4 及更高版本中,html.unescape()函數提供了一種解碼HTML 實體的簡單方法:
import html print(html.unescape('£682m'))
這將返回所需的輸出: “£682m”。
對於2.6 和3.3 之間的Python 版本,HTMLParser.unescape() 方法被證明是有用的:
try: # Python 2.6-2.7 from HTMLParser import HTMLParser except ImportError: # Python 3 from html.parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
或者,六個相容庫可以簡化模組導入,從而實現跨Python 使用HTMLParser版本:
from six.moves.html_parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
透過利用這些 Python 工具,開發人員可以有效率地解碼 HTML 實體並取得滿足其解析需求的所需文字內容。
以上是如何在 Python 中解碼 HTML 實體?的詳細內容。更多資訊請關注PHP中文網其他相關文章!