import scrapy from movie.items import MovieItem class MeijuSpider(scrapy.Spider): name = "meiju" allowed_domains = ["alexa.cn"] start_urls = ['www.alexa.cn/siterank'] def parse(self, response): movies = response.xpath('//ul[@class="siterank-sitelist"]/li') for each_movie in movies: item = MovieItem() item['name'] =each_movie.xpath('.//p[@class="infos"]').extract()[0] yield item
Kodnya seperti ini. Apa yang saya ingin tangkap dalam gelung ialah:
www.alexa.cn/siterank/2
www.alexa.cn/siterank/3
www.alexa.cn/siterank/4
.....
Saya rasa gelung harus seperti ini untuk i dalam julat(2,10):
hasil scrapy.Request('www.alexa.cn/siterank/%d'%i), tetapi saya tidak tahu cara mengisi ia masuk. Bantu
Jika anda pasti tentang skopnya, lebih baik bermula dengan start_urls
Terdapat contoh di laman web rasmi Berkenaan menjejak halaman seterusnya, contoh di laman web rasmi menggunakan rekursi kod di laman web rasmi adalah seperti berikut:
Saya menggunakan Scrapy untuk menulis perangkak Tieba Saya juga menggunakan kaedah rekursif ini untuk mendapatkan halaman seterusnya: