python - Scrapy写的爬虫只能抓取前面几页是什么问题？-PHP中国語ネットワークQ&A

記事特集学ぶダウンロードに質問プログラミング辞典ゲーム最近の更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - Scrapy写的爬虫只能抓取前面几页是什么问题？

天蓬老师 2017-04-18 10:10:11

0

1

799

打算爬贴吧，我是想获取每一页的帖子的链接，然后再根据帖子链接提取帖子里面的内容，提取某一页帖子的链接的代码已经写好，但是发现只提取了3页爬虫就结束了，这是什么问题？这是我的代码：

#coding:utf-8
import scrapy

class TiebaSpider(scrapy.Spider):
    name = "tiebapost"
    start_urls = [
        'http://tieba.baidu.com/f?kw=%E6%B8%A1%E8%BE%B9%E9%BA%BB%E5%8F%8B&ie=utf-8&pn=0'
    ]

    def parse(self, response):
        output = open('e:/scrapy_tutorial/link.txt', 'w+')
        count = 0
        for post in response.css('p.j_th_tit'):
            post_link = post.css('a.j_th_tit::attr(href)').extract()
            output.write('http://tieba.baidu.com' + post_link[0] + '\n')
            count += 1
            print u"提取到的链接：", post_link
        print u'总共', count, u'条链接'

        next_page = response.css('a.pagination-item::attr(href)').extract_first()
        if next_page is not None:
            yield scrapy.Request(next_page, callback=self.parse)

天蓬老师

欢迎选择我的课程，让我们一起见证您的进步~~

全員に返信(1)

Ty802017-04-18 10:12:11 1棟

tieba.baidu.com によって一括クロールされると、403 またはその他の 200 以外の応答コードが生成され、ここのページを開くことができなくなり、次のページが表示されなくなります。この文書で発生した問題

いいねを押す +0

返信を追加

人気のトピック

詳細>

人気の記事

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート

私たちについて免責事項 Sitemap: PHP中国語ウェブサイト：福祉オンライン PHP トレーニング，PHP 学習者の迅速な成長を支援します！