Python Scrapy クローラー: 同期および非同期ページングのデモ-Python チュートリアル-php.cn

Python Scrapy クローラー: 同期および非同期ページングのデモ

高洛峰

リリース： 2016-11-22 14:03:26

オリジナル

3707 人が閲覧しました

ページングのインタラクションには、データをリクエストするときの同期と非同期の 2 つの状況があります。同期の場合はページ全体が更新され、非同期の場合はページが部分的に更新されます。 2 種類のページ分割されたデータは、クロール時に異なる方法で処理されます。デモは学習のみを目的としており、すべてのドメイン名はテストとして匿名化されています

同期ページング

同期ページング中は、ページ全体が更新され、URL アドレスバーが変更されます

クローラーによって解析されるデータオブジェクトは HTML です

テストシナリオ: 北京の求人 Web サイトをクロールする地区の Java 求人

#coding=utf-8import scrapyclass TestSpider(scrapy.Spider):
    name=&#39;test&#39;
    download_delay=3
    user_agent=&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36&#39;
    page_url = &#39;http://www.test.com/zhaopin/Java/{0}/?filterOption=2&#39;
    page=1

    #执行入口
    def start_requests(self):
        #第一页
        yield scrapy.Request(self.page_url.format(&#39;1&#39;),
            headers={&#39;User-Agent&#39;:self.user_agent},
            callback=self.parse,
            errback=self.errback_httpbin)    #解析返回的数据
    def parse(self,response):
        for li in response.xpath(&#39;//*[@id="s_position_list"]/ul/li&#39;):            yield{                &#39;company&#39;:li.xpath(&#39;@data-company&#39;).extract(),                &#39;salary&#39;:li.xpath(&#39;@data-salary&#39;).extract()
            }        #是否是最后一页，根据下一页的按钮css样式判断
        if response.css(&#39;a.page_no.pager_next_disabled&#39;):
            print(&#39;---is the last page,stop!---&#39;)            
            pass
        else:
            self.page=self.page+1
            #抓取下一页
            yield scrapy.Request(self.page_url.format(str(self.page)),
                headers={&#39;User-Agent&#39;:self.user_agent},
                callback=self.parse,
                errback=self.errback_httpbin)    #异常处理
    def errback_httpbin(self,failure):
        if failure.check(HttpError):
            response = failure.value.response            print &#39;HttpError on {0}&#39;.format(response.url)        elif failure.check(DNSLookupError):
            request = failure.request            print&#39;DNSLookupError on {0}&#39;.format(request.url)        elif failure.check(TimeoutError, TCPTimedOutError):
            request = failure.request            print&#39;TimeoutError on {0}&#39;.format(request.url)

ログイン後にコピー

クローラーを開始します:scrapy runspider //spiders//test_spider.py -o test.csv 完了すると、csv 形式のファイルが生成されます:

Python Scrapy クローラー: 同期および非同期ページングのデモ

非同期ページング

非同期ページング中、ページは部分的に更新されますが、URL アドレスバーは変化しません

クローラーによって解析されるデータオブジェクトは通常 Json です

テストシナリオ: 映画のトップ 100 のクラシック映画をクロールしますwebsite

#coding=utf-8import scrapyimport jsonclass TestSpider(scrapy.Spider):
    name =&#39;test&#39;
    download_delay = 3
    user_agent = &#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36&#39;
    pre_url = &#39;https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=&#39;
    page=0
    cnt=0
    def start_requests(self):
            url= self.pre_url+str(0*20)             yield scrapy.Request(url,headers={&#39;User-Agent&#39;:self.user_agent},callback=self.parse)    def parse(self,response):
        if response.body:            # json字符串转换成Python对象
            python_obj=json.loads(response.body)
            subjects=python_obj[&#39;subjects&#39;]            if len(subjects)>0:                for sub in subjects:
                    self.cnt=self.cnt+1
                    yield {                        &#39;title&#39;:sub["title"],                        &#39;rate&#39;:sub["rate"]
                    }                if self.cnt<100:                    print &#39;next page-------&#39;
                    self.page=self.page+1
                    url= self.pre_url+str(self.page*20)                    yield scrapy.Request(url,headers={&#39;User-Agent&#39;:self.user_agent},callback=self.parse)

ログイン後にコピー

クローラーを開始します:scrapy runspider //spiders//test_spider.py -o test .json が完了すると、json 形式のファイルが生成されます:

Python Scrapy クローラー: 同期および非同期ページングのデモ

Scrapy と BeautifulSoup または lxml の違い

Scrapy はクローラーとデータをクローリングするための完全なフレームワークですが、BeautifulSoup または lxml は HTML/XML を解析するための単なるライブラリであり、scrapy の xpath セレクターや css セレクターと同様の関数を備えており、scrapy でも使用できますが、操作効率は比較的高くなります。低い。 Scrapy のセレクターを使用する場合、ブラウザーの F12 モードを使用して、任意のノードの xpath および css 値を直接コピーできます。