python - pyspider 遇到防爬页面怎么处理？-PHP中国語ネットワークQ&A

記事特集学ぶダウンロードに質問プログラミング辞典ゲーム最近の更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - pyspider 遇到防爬页面怎么处理？

迷茫 2017-04-18 09:52:27

0

4

366

遇到页面防爬，返回页面说需要验证是否是机器人输入验证码这种情况要怎么处理？这时候这个页面返回的是200，爬虫认为正常爬过页面了，但是实际并没有获得有效数据。
是通过判断抓没抓到数据，然后抛异常重新爬吗？这种情应该怎么处理

不知道我通过抛异常重爬这种方法是否正确？

迷茫

业精于勤，荒于嬉;行成于思，毁于随。

全員に返信 (4)

大家讲道理2017-04-18 09:54:27 4棟

抛出异常，让 pyspider 自己重试（前提是没被封 ip）

いいねを押す+0

返信を追加

黄舟2017-04-18 09:54:27 3棟

你可以先验证本页面是否需要验证码，如果不需要直接爬；需要的话就把这个地址存下来。
当你的爬虫爬完了所有的地址，回过头再来处理这些需要需要的验证码的地址。

同时，为什么会出现爬虫被发现，我觉得你应该手工去访问几个页面，看看在headers里面是否有某些特定信息，包括不限于Rerferer。同时你需要注意：

代理IP qiyeboy/IPProxys
模拟UA
适当的休眠

我觉得你应该还是去用浏览器访问试试，看看header里面会不会出现特定的信息，还有去看看网页源码有没有什么js的限制

朋友一个很二的限制爬虫方法：不加载favicon就被认定为爬虫2333

いいねを押す+0

返信を追加

黄舟2017-04-18 09:54:27 2棟

我认为应该加上相应的header信息，伪装成浏览器来进行访问。

いいねを押す+0

返信を追加

Peter_Zhu2017-04-18 09:54:27 1棟

使用代理ip来抓取网页吧，我个人觉得sleep()或者更换header信息都没什么用，因为有的网站是限制你ip在一段时间内的访问量，但网上那些代理ip的存活率很低，好做法是维护着一个代理池，把抓取的ip可以用的维护，不可用的去除，但效率真的不好

いいねを押す+0

返信を追加

人気のトピック

詳細>

人気の記事

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート

私たちについて免責事項 Sitemap: PHP中国語ウェブサイト：福祉オンライン PHP トレーニング，PHP 学習者の迅速な成長を支援します！