私は Python を初めて使用します。scray クローラーを使用しているときに html の特殊文字に遭遇したため、Baidu でドキュメントを検索しました:
import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #Web ページのエスケープを避けるためにスペースを空けてください
s = html_parser.unescape(s) )
実行時プロンプト:
import markupbase
ImportError:「markupbase」という名前のモジュールがありません
翻訳ソフトウェアの助けを借りて、HTMLParser の公式ドキュメントを調べて 2 番目の方法を見つけました
from html.parser import HTMLParser
クラスMyHTMLParser(HTMLParser):
リーリーparser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #Web ページのエスケープを避けるためにスペースが残されています
ss=parser.feed(s)
2 番目のメソッドは正常にテストされました。発生した問題は、戻りデータ文が無効であることです。
すみません、数行のコードでエスケープ問題を解決する方法はありますか? 2 番目のメソッドがない場合、戻り値を取得するにはどうすればよいですか?
リーリー