社区学习工具库休闲

简体中文

首页 > 后端开发 > Python教程 > Python使用Scrapy爬取妹子图

Python使用Scrapy爬取妹子图

WBOY

发布： 2016-06-06 11:17:39

原创

1681 人浏览过

Python Scrapy爬虫，听说妹子图挺火，我整站爬取了，上周一共搞了大概8000多张图片。和大家分享一下。

核心爬虫代码

# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader, Identity
from fun.items import MeizituItem
 
 
class MeizituSpider(scrapy.Spider):
  name = "meizitu"
  allowed_domains = ["meizitu.com"]
  start_urls = (
    'http://www.meizitu.com/',
  )
 
  def parse(self, response):
    sel = Selector(response)
    for link in sel.xpath('//h2/a/@href').extract():
      request = scrapy.Request(link, callback=self.parse_item)
      yield request
 
    pages = sel.xpath("//div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
    print('pages: %s' % pages)
    if len(pages) > 2:
      page_link = pages[-2]
      page_link = page_link.replace('/a/', '')  
      request = scrapy.Request('http://www.meizitu.com/a/%s' % page_link, callback=self.parse)
      yield request
 
  def parse_item(self, response):
    l = ItemLoader(item=MeizituItem(), response=response)
    l.add_xpath('name', '//h2/a/text()')
    l.add_xpath('tags', "//div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
    l.add_xpath('image_urls', "//div[@id='picture']/p/img/@src", Identity())
 
    l.add_value('url', response.url)
    return l.load_item()

登录后复制

项目地址：https://github.com/ZhangBohan/fun_crawler

以上所述就是本文的全部内容了，希望大家能够喜欢。

相关标签：

python scrapy

来源：php.cn

上一篇：Python基于smtplib实现异步发送邮件服务下一篇：python删除过期文件的方法

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

Python/MySQL无法正确持久化整数数据在这里不需要任何代码。我想要保存一个非常长的数字，因为我正在制作一个游戏，需要保存分数。但是我测试了一下，将分数设置为25000000000，但在mysql中保存为21474836...

来自于 2024-04-04 19:09:44

0

1

367

使用selenium想要点击并在类中定义URL 今天我需要另一个提示。我正在尝试构建Python/Selenium代码，想法是单击www.thewebsiteIwantoclickon下面是我正在处理的HTML示例。类entit...

来自于 2024-04-04 14:14:44

0

1

3492

Selenium + Python - 通过execute_script检查图像我需要使用python中的selenium验证图像是否显示在页面上。例如，让我们检查https://openweathermap.org/页面左上角的徽标。我使用execute_s...

来自于 2024-04-03 09:32:15

0

1

375

保留前X行，删除表格行的方法我在MySQLincident_archive中有一个包含数百万条记录的大表，我想按created列对行进行排序，并保留前X行并删除其余行，最有效的方法是什么。到目前为止，我用Py...

来自于 2024-04-01 18:32:54

0

1

347

如何使用 BeautifulSoup 抓取特定的谷歌天气文本？如何使用BeautifulSoup在Python中找到课程文本“美国纽约市”？尝试复制视频进行练习，但不再有效。尝试在官方文档中找到一些内容，但没有成功。或者我的get_html_...

来自于 2024-04-01 14:06:14

0

1

308

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1422981
php入门教程之一周学会PHP

4268311
JAVA 初级入门视频教程

2533847
小甲鱼零基础入门学习Python视频教程

507243
PHP 零基础入门教程

862376

最新下载

更多>

网站特效

网站源码

网站素材

前端模板