Python Scrapy Crawler: DEMO für synchrones und asynchrones Paging-Python-Tutorial-php.cn

Python Scrapy Crawler: DEMO für synchrones und asynchrones Paging

高洛峰

Freigeben： 2016-11-22 14:03:26

Original

3664 Leute haben es durchsucht

Bei der Paging-Interaktion gibt es zwei Situationen: synchron und asynchron beim Anfordern von Daten. Bei der Synchronisierung wird die Seite als Ganzes aktualisiert, bei der Asynchronisierung wird die Seite teilweise aktualisiert. Die beiden Arten paginierter Daten werden beim Crawlen unterschiedlich verarbeitet. DEMO dient nur zum Lernen, alle Domainnamen werden als Test anonymisiert

Synchronisiertes Paging

Beim synchronisierten Paging wird die Seite als Ganzes aktualisiert und die URL-Adressleiste ändert sich

Das vom Crawler analysierte Datenobjekt ist HTML

Testszenario: Schnappen Sie sich Java-Jobs im Pekinger Bereich einer Rekrutierungswebsite

#coding=utf-8import scrapyclass TestSpider(scrapy.Spider):
    name=&#39;test&#39;
    download_delay=3
    user_agent=&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36&#39;
    page_url = &#39;http://www.test.com/zhaopin/Java/{0}/?filterOption=2&#39;
    page=1

    #执行入口
    def start_requests(self):
        #第一页
        yield scrapy.Request(self.page_url.format(&#39;1&#39;),
            headers={&#39;User-Agent&#39;:self.user_agent},
            callback=self.parse,
            errback=self.errback_httpbin)    #解析返回的数据
    def parse(self,response):
        for li in response.xpath(&#39;//*[@id="s_position_list"]/ul/li&#39;):            yield{                &#39;company&#39;:li.xpath(&#39;@data-company&#39;).extract(),                &#39;salary&#39;:li.xpath(&#39;@data-salary&#39;).extract()
            }        #是否是最后一页，根据下一页的按钮css样式判断
        if response.css(&#39;a.page_no.pager_next_disabled&#39;):
            print(&#39;---is the last page,stop!---&#39;)            
            pass
        else:
            self.page=self.page+1
            #抓取下一页
            yield scrapy.Request(self.page_url.format(str(self.page)),
                headers={&#39;User-Agent&#39;:self.user_agent},
                callback=self.parse,
                errback=self.errback_httpbin)    #异常处理
    def errback_httpbin(self,failure):
        if failure.check(HttpError):
            response = failure.value.response            print &#39;HttpError on {0}&#39;.format(response.url)        elif failure.check(DNSLookupError):
            request = failure.request            print&#39;DNSLookupError on {0}&#39;.format(request.url)        elif failure.check(TimeoutError, TCPTimedOutError):
            request = failure.request            print&#39;TimeoutError on {0}&#39;.format(request.url)

Nach dem Login kopieren

Starten Sie den Crawler: Scrapy Runspider //Spiders //test_spider.py -o test.csv wird nach Abschluss generiert. Datei im CSV-Format:

Python Scrapy Crawler: DEMO für synchrones und asynchrones Paging

Asynchrones Paging

Beim asynchronen Paging wird die Seite teilweise angezeigt aktualisiert und die URL-Adressleiste ändert sich nicht

Crawler-Analyse Das Datenobjekt ist normalerweise Json

Testszenario: Crawlen der 100 besten Filmklassiker einer Filmwebsite

#coding=utf-8import scrapyimport jsonclass TestSpider(scrapy.Spider):
    name =&#39;test&#39;
    download_delay = 3
    user_agent = &#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36&#39;
    pre_url = &#39;https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=&#39;
    page=0
    cnt=0
    def start_requests(self):
            url= self.pre_url+str(0*20)             yield scrapy.Request(url,headers={&#39;User-Agent&#39;:self.user_agent},callback=self.parse)    def parse(self,response):
        if response.body:            # json字符串转换成Python对象
            python_obj=json.loads(response.body)
            subjects=python_obj[&#39;subjects&#39;]            if len(subjects)>0:                for sub in subjects:
                    self.cnt=self.cnt+1
                    yield {                        &#39;title&#39;:sub["title"],                        &#39;rate&#39;:sub["rate"]
                    }                if self.cnt<100:                    print &#39;next page-------&#39;
                    self.page=self.page+1
                    url= self.pre_url+str(self.page*20)                    yield scrapy.Request(url,headers={&#39;User-Agent&#39;:self.user_agent},callback=self.parse)

Nach dem Login kopieren

Starten Sie den Crawler: scrapy runspider //spiders//test_spider.py -o test Nach Abschluss von .json wird eine Datei im JSON-Format generiert:

Python Scrapy Crawler: DEMO für synchrones und asynchrones Paging

Der Unterschied zwischen Scrapy und BeautifulSoup oder lxml

Scrapy ist ein vollständiges Framework zum Schreiben von Crawlern und zum Crawlen von Daten, und BeautifulSoup oder lxml ist nur eine Bibliothek zum Parsen von HTML/XML. Ihre Funktion ist wie der XPath- und CSS-Selektor von Scrapy, sodass sie dies auch können unter Scrapy verwendet werden, aber die Betriebseffizienz ist relativ gering. Wenn wir den Scrapy-Selektor verwenden, können wir den F12-Modus des Browsers verwenden, um die XPath- und CSS-Werte eines beliebigen Knotens direkt zu kopieren.