python - scrapy obtient le contenu spécifié de la page Web, puis passe à la page suivante pour continuer, avec un nombre fixe de cycles. . question-Questions et réponses sur le réseau chinois PHP

Article Sujet apprentissage Télécharger Questions et réponses Dictionnaire de programmation Jeu mises à jour récentes

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - scrapy obtient le contenu spécifié de la page Web, puis passe à la page suivante pour continuer, avec un nombre fixe de cycles. . question

天蓬老师 2017-06-12 09:19:33

766

import scrapy from movie.items import MovieItem class MeijuSpider(scrapy.Spider): name = "meiju" allowed_domains = ["alexa.cn"] start_urls = ['www.alexa.cn/siterank'] def parse(self, response): movies = response.xpath('//ul[@class="siterank-sitelist"]/li') for each_movie in movies: item = MovieItem() item['name'] =each_movie.xpath('.//p[@class="infos"]').extract()[0] yield item

Le code est comme ça. Ce que je veux capturer en boucle, c'est :

www.alexa.cn/siterank/2
www.alexa.cn/siterank/3
www.alexa.cn/siterank/4
.....

Je pense que la boucle devrait être comme ceci pour i in range(2,10):
yield scrapy.Request('www.alexa.cn/siterank/%d'%i), mais je ne sais pas comment remplir dans. Aide

天蓬老师

欢迎选择我的课程，让我们一起见证您的进步~~

répondre à tous (2)

洪涛2017-06-12 09:21:33 2 plancher

Si vous êtes sûr de la portée, il est préférable de commencer par start_urls

start_urls = ['http://www.alexa.cn/siterank/{n}'.format(n=x) for x in range(2,10)]

Comme+0

Ajouter une réponse

学习ing2017-06-12 09:21:33 1 plancher

Il y a des exemples sur le site officiel. Concernant le suivi de la page suivante, les exemples sur le site officiel utilisent la récursion. Le code sur le site officiel est le suivant :

import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/', ] def parse(self, response): for quote in response.css('p.quote'): yield { 'text': quote.css('span.text::text').extract_first(), 'author': quote.css('small.author::text').extract_first(), 'tags': quote.css('p.tags a.tag::text').extract(), } # next_page是用css选择器获取到的下一页， 在下面它递归地调用了parse方法来不断地追踪下一页 next_page = response.css('li.next a::attr(href)').extract_first() if next_page is not None: next_page = response.urljoin(next_page) yield scrapy.Request(next_page, callback=self.parse)

J'ai utilisé Scrapy pour écrire un robot Tieba. J'ai également utilisé cette méthode récursive pour obtenir la page suivante :

import scrapy from tieba_crawler.items import ImageItem class TiebaSpider(scrapy.Spider): name = 'tbimg' def start_requests(self): url = 'http://tieba.baidu.com/f?kw=%E6%B8%A1%E8%BE%B9%E9%BA%BB%E5%8F%8B' yield scrapy.Request(url=url, callback=self.parse_post) def parse_post(self, response): post_list = response.css('ul#thread_list li.j_thread_list') for item in post_list: title = item.css('a.j_th_tit::text').extract_first() url = 'http://tieba.baidu.com' \ + item.css('a.j_th_tit::attr(href)').extract_first() yield scrapy.Request(url=url, callback=self.parse_image) page_list = response.css('p#frs_list_pager a::attr(href)').extract() if not page_list: return else: next_page = page_list[-2] if next_page: yield response.follow(next_page, callback=self.parse_post) def parse_image(self, response): img_urls = response.css('p#j_p_postlist img.BDE_Image::attr(src)').extract() yield ImageItem(image_urls=img_urls) page_list = response.css('ul.l_posts_num li.pb_list_pager a::attr(href)').extract() if not page_list: return else: next_page = page_list[-2] if next_page: yield response.follow(next_page, callback=self.parse_image)

Comme+0

Ajouter une réponse

Sujets populaires

Plus>

Articles populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal

À propos de nous Clause de non-responsabilité Sitemap: Site Web PHP chinois：Formation PHP en ligne sur le bien-être public，Aidez les apprenants PHP à grandir rapidement！

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket