Python crawlt Webseiten mit verstümmelten Anfragen

Question

**Ich habe zuvor Daten aus Referenzdokumenten gecrawlt. Nachdem ich den Crawler in diesem Zeitraum erneut ausgeführt hatte, stellte ich fest, dass die Webseitendaten nicht abgerufen werden konnten. Bei der Suche stellte ich fest, dass der Quellcode der Anforderungswebseite verstümmelte Zeichen zurückgab. * (Ein Teil der zurückgegebenen Daten wird wie folgt abgefangen: &lt;meta http -equiv="Content-Type" content="text/htm...

仅有的幸福 · Answer

ajax 加载的结果页面，如果在 network 里获取不到类似 json 的反馈结果。就使用PHANTOMJS来模拟加载。然后匹配爬取。

高洛峰 · Answer

你的 html 对象使用的编码不对，
加入一行 html.encoding = html.apparent_encoding
根据实际获取的 text 推测编码，重新解码。

怪我咯 · Answer

如果你愿意去钻，给你个参考地址：http://www.qingpingshan.com/j...

学习ing · Answer

print html.content