python - scrapy中使用CrawlSpider，匹配不到urls

Question

我的爬蟲代碼如下，其中rules無獲取，不知道是什麼問題？ {代碼...} 執行報錯的提醒： {代碼...}

世界只因有你 · Answer

主要是 allow_domains的問題，你的提取規則是沒問題的，程式碼這樣寫就能抓連結了

# encoding: utf-8
import time
from tutorial.items import CrawlerItem
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class MoyanSpider(CrawlSpider):
    name = 'maoyan'
    allowed_domains = ["maoyan.com"]
    start_urls = ['http://maoyan.com/films']

    rules = (
        Rule(LinkExtractor(allow=(r"films/\d+.*")), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response.url)
        item = CrawlerItem()
        try:

            time.sleep(2)
            item['name'] = response.text.find("p", class_="movie-brief-container").find("h3", class_="name").get_text()
            item['score'] = response.text.find("p", class_="movie-index-content score normal-score").find("span",
                                                                                                       class_="stonefont").get_text()
            url = "http://maoyan.com" + response.text.find("p", class_="channel-detail movie-item-title").find("a")["href"]
            item['id'] = response.url.split("/")[-1]
            temp = response.text.find("p", "movie-brief-container").find("ul").get_text()
            temp = temp.split('
')
            item['tags'] = temp[1]
            item['countries'] = temp[3].strip()
            item['duration'] = temp[4].split('/')[-1]
            item['time'] = temp[6]
            return item
        except Exception as e:
            print(e)

主要就是allow_domain别带上http://字串。

另外，你的解析模組有點問題，我沒給你修改，有數據了自己應該也能改。

另外，吐槽一下前面的同學，根本就沒調試人家的程式碼，也這樣強答，明顯在誤導人嘛

習慣沉默 · Answer

有幾個模組組件已經棄用了，讓你換個別的相似模組使用

阿神 · Answer

只是警告,沒有錯誤。可能你爬取的網站做了防爬蟲措施,導致你無法正常取得。