python - 除了代理ip,香港的服务器爬取国内网站还有更好的方法吗?

Question

我在做一只淘宝的爬虫,但是用的是香港的服务器,但是比较困惑:因为每次爬淘宝的首页时候,就自动给我跳转到香港淘宝~~导致源代码和内容都不一样~请问如果遇到这种情况要怎么处理呢? 简单来说,比如采集58同城如果我...

PHP中文网 · Answer

禁止重定向，以requests為例：

r = requests.get('http://github.com/', allow_redirects=False)
r.status_code  # 302
r.url  # http://github.com, not https.
r.headers['Location']  # https://github.com/ -- the redirect destination

PHP中文网 · Answer

如果是想採集的北京的，就去打子城名，不過有PGTID保護

http://bj.58.com/?PGTID=0d000...

建義使用selenium

迷茫 · Answer

有時候伺服器會根據你的ip對應的地理位置資訊作重定向的，這個你除了找代理應該沒有別的方法了。。