python爬虫如何批量爬取糗事百科段子

刚学Python不会scrapy框架，就是想做个简单爬虫实现抓取前10页段子（前N页）。请问不用scrapy能有什么简单一些的代码能实现？之前有试过在page那里加for循环，但是也只能抓到一个页面，不知道怎么弄。

import urllib
import urllib2
import re

page = 1
url = 'http://www.qiushibaike.com/8hr/page/' + str(page)
user_agent = 'Mozilla/5.0 ( Windows NT 6.1)'
headers = { 'User-Agent' : user_agent }

try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile('<p.*?class="content">.*?<span>(.*?)</span>.*?</p>.*?',re.S)
    items = re.findall(pattern,content)
    for item in items:
        print item

except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

# Python

伊谢尔伦2146 天前455 次浏览

import urllib import urllib2 import re import time for page in range(1, 11): print('at page %s' % page) url = 'http://www.qiushibaike.com/8hr/page/' + str(page) user_agent = 'Mozilla/5.0 ( Windows NT 6.1)' headers = { 'User-Agent' : user_agent } try: request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read().decode('utf-8') pattern = re.compile('<p.*?class="content">.*?<span>(.*?)</span>.*?</p>.*?',re.S) items = re.findall(pattern,content) for item in items: print item except urllib2.URLError, e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason time.sleep(1)

python爬虫如何批量爬取糗事百科段子

全部回复(1) 我要回复