** 以前、査読者文書のデータをクロールしたことがありますが、その期間中に再度クローラーを実行したところ、Web ページのデータが取得できなかったことがわかりました。
検索したところ、リクエストのソースコードが見つかりませんでした。 Web ページが文字化けを返しました**
(返されたデータの一部を次のようにインターセプトします: <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA " )
#Web サイトが Web ページのコンテンツを暗号化しているかどうかわかりません。この問題はどうすれば解決できますか?ありがとう!
プログラムのソース コードの一部をインターセプトします:
リーリーしかし、返されるべきデータが review 要素で返されます。何が問題なのでしょうか?
プログラムが正常に実行されているときに返されるデータは次のとおりです:
Ajax でロードされた結果ページ (ネットワーク内で json と同様のフィードバック結果が取得できない場合)。 PHANTOMJS を使用して読み込みをシミュレートするだけです。次に、クロールに一致します。
HTML オブジェクトで使用されているエンコーディングが間違っています。
html.encoding = html.apparent_encoding という行を追加します。
実際に取得したテキストに基づいてエンコーディングを推測し、再デコードします。
ドリルしていただける場合は、参考アドレスをお知らせします: http://www.qingpingshan.com/j...
html.contentを印刷