python - 爬取人大经济论坛问题
PHP中文网
PHP中文网 2017-04-18 09:45:44
0
3
330

这是搜索页
http://s.pinggu.org/search.ph...

这是请求时候看到的内容

这里有两个问题,
在form data里面有两个数据不知怎么获取。
一个是srchtxt,这个应该是搜索的那个字段,要怎么处理拼接进来。
另外一个是:formhash,这个可以在元素页面可以看到

但是这个也是在post搜索之后才有的,所以就是不知要怎么处理这两个字段。

PHP中文网
PHP中文网

认证0级讲师

全部回覆 (3)
Ty80

第一個formhash的获取,再搜索之前,事先访问一下http://s.pinggu.org/search.php這個連接,這個時候,就會產生formhash這個字段了。另外一個欄位出現亂碼,我猜測的原因是,這個網頁採用的gbk編碼,所以說你傳值的時候,也改變編碼即可。

    Peter_Zhu

    formhash就按樓上說的去訪問兩次就可以了
    srchtxt。 。 。你自己爬取的時候一定要自己寫關鍵字阿。 。 。要不爬啥啊

      Peter_Zhu

      srchtxt顧名思義能猜到search_text 搜尋關鍵字為什麼會出現chrome上的unable to decode 估計是因為是url在轉譯中文後所以不能展示吧,這個不影響,你在提交表單的時候按照你的文字提交就行,url會自動轉化

      formhash當你在get到這個頁面的時候已經有了input 的value了,先獲取到這個值,再去構造表單提交url

      總結下:

      1. srchtxt = 需要搜索的内容 2. formhash = 页面字段 (在提交时先去get页面这个字段value,构造完整的表单)
        最新下載
        更多>
        網站特效
        網站源碼
        網站素材
        前端模板
        關於我們 免責聲明 Sitemap
        PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!