python - scrapy 如何爬取网页里面的thunder链接?
PHPz
PHPz 2017-04-18 09:41:53
0
1
1208

目标url:
http://www.xiaopian.com/html/...

这个是chrome里显示的源代码

这个是scrapy shell url后用response.css().extract()显示东西

我想知道为何二者不一致?scrapy爬取到的信息并没有对应的thunder链接,而是明面上的ftp链接

PHPz
PHPz

学习是最好的投资!

全員に返信(1)
黄舟

Web ページのソース コードを表示するには、クローラを右クリックし、[Web ページのソース コードを表示] をクリックする必要があります。ここで表示されるコードは、js によってレンダリングされています。
調べてみると、Thunderのダウンロードアドレスはjsで計算されていることが分かりました

具体的なコードは次のとおりです:

リーリー

テストしました:
アドレス ftp://a:a@dygod18.com:21/[电影天堂www.dy2018.com]忍者神龟2破影而出BD中英双字.rmvb をパラメーターとして渡すと、Thunder 接続が得られますが、デコード後、Web ページ上の接続と同じではなく、中国語が URL エンコードされます。エンコーディングが統一されていれば問題ありません。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート