Webcrawler – Python crawlt Websites und analysiert Nicht-JSON-Inhalte
学习ing
学习ing 2017-06-28 09:26:28
0
2
1006

Ich habe gerade gelernt, JSON-Inhalte abzurufen, aber die Website, die ich heute gecrawlt habe, gibt keine JSON-Inhalte zurück und nach jedem Anforderungslink wird eine Zufallszahl generiert

Ich weiß nicht, ob es Auswirkungen auf den Inhalt hat, den ich crawlen möchte

Der Inhalt, den Sie benötigen, ist der Inhalt in der Mitte des Bildes unten


Website-Link http://www.szse.cn/main/discl...

Code, den ich selbst ausprobiert habe:

import requests dir = '/Users/S1Lence/Desktop/new_html/szse/许可类重组问询函' headers = {'Host': 'www.szse.cn', 'Referer': 'http://www.szse.cn/main/disclosure/jgxxgk/wxhj/', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36' } payload= {'ACTIONID': '7', 'AJAX': 'AJAX-TRUE', 'CATALOGID': 'main_wxhj', 'TABKEY': 'tab1', 'selecthjlb': '许可类重组问询函', 'tab1PAGENO': '1', 'tab1PAGECOUNT': '7', 'tab1RECORDCOUNT': '63', 'REPORT_ACTION': 'navigate'} res = requests.post('http://www.szse.cn/szseWeb/FrontControllere', data=payload) print(res.text)

Der Ausgabeinhalt entspricht nicht meinen Wünschen. Wie soll ich crawlen?

学习ing
学习ing

Antworte allen (2)
黄舟

把他的header信息拷过来用。。

    漂亮男人

    你post的url地址写错了,应该是

    http://www.szse.cn/szseWeb/FrontController.szse
      Neueste Downloads
      Mehr>
      Web-Effekte
      Quellcode der Website
      Website-Materialien
      Frontend-Vorlage
      Über uns Haftungsausschluss Sitemap
      Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!