python - 爬取人大经济论坛问题
PHP中文网
PHP中文网 2017-04-18 09:45:44
0
3
322

这是搜索页
http://s.pinggu.org/search.ph...

这是请求时候看到的内容

这里有两个问题,
在form data里面有两个数据不知怎么获取。
一个是srchtxt,这个应该是搜索的那个字段,要怎么处理拼接进来。
另外一个是:formhash,这个可以在元素页面可以看到

但是这个也是在post搜索之后才有的,所以就是不知要怎么处理这两个字段。

PHP中文网
PHP中文网

认证0级讲师

모든 응답 (3)
Ty80

第一个formhash的获取,再搜索之前,事先访问一下http://s.pinggu.org/search.php这个连接,这个时候,就会产生formhash这个字段了。另外一个字段出现乱码,我猜测的原因是,这个网页采用的gbk编码,所以说你传值的时候,也改变编码即可。

    Peter_Zhu

    formhash就按楼上说的去访问两次就可以了
    srchtxt。。。你自己爬取的时候肯定要自己写关键字阿。。。要不爬啥啊

      Peter_Zhu

      srchtxt顾名思义能猜到 search_text 搜索关键字 为什么会出现chrome上的unable to decode 估计是因为是url在转译中文后所以不能展示吧,这个不影响,你在提交表单的时候按照你的文字提交就行,url会自动转化

      formhash当你在get到这个页面的时候已经有了input 的value了,先获取到这个值,再去构造表单提交url

      总结下:

      1. srchtxt = 需要搜索的内容 2. formhash = 页面字段 (在提交时先去get页面这个字段value,构造完整的表单)
        최신 다운로드
        더>
        웹 효과
        웹사이트 소스 코드
        웹사이트 자료
        프론트엔드 템플릿
        회사 소개 부인 성명 Sitemap
        PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!