python - 爬取人大经济论坛问题
PHP中文网
PHP中文网 2017-04-18 09:45:44
0
3
323

这是搜索页
http://s.pinggu.org/search.ph...

这是请求时候看到的内容

这里有两个问题,
在form data里面有两个数据不知怎么获取。
一个是srchtxt,这个应该是搜索的那个字段,要怎么处理拼接进来。
另外一个是:formhash,这个可以在元素页面可以看到

但是这个也是在post搜索之后才有的,所以就是不知要怎么处理这两个字段。

PHP中文网
PHP中文网

认证0级讲师

全部回复 (3)
Ty80

第一个formhash的获取,再搜索之前,事先访问一下http://s.pinggu.org/search.php这个连接,这个时候,就会产生formhash这个字段了。另外一个字段出现乱码,我猜测的原因是,这个网页采用的gbk编码,所以说你传值的时候,也改变编码即可。

    Peter_Zhu

    formhash就按楼上说的去访问两次就可以了
    srchtxt。。。你自己爬取的时候肯定要自己写关键字阿。。。要不爬啥啊

      Peter_Zhu

      srchtxt顾名思义能猜到 search_text 搜索关键字 为什么会出现chrome上的unable to decode 估计是因为是url在转译中文后所以不能展示吧,这个不影响,你在提交表单的时候按照你的文字提交就行,url会自动转化

      formhash当你在get到这个页面的时候已经有了input 的value了,先获取到这个值,再去构造表单提交url

      总结下:

      1. srchtxt = 需要搜索的内容 2. formhash = 页面字段 (在提交时先去get页面这个字段value,构造完整的表单)
        最新下载
        更多>
        网站特效
        网站源码
        网站素材
        前端模板
        关于我们 免责声明 Sitemap
        PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!