masyarakat Belajar Perpustakaan Alatan Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > Tutorial Python > Python爬虫-scrapy介绍及使用

Python爬虫-scrapy介绍及使用

angryTom

Lepaskan： 2019-11-29 15:56:29

ke hadapan

5243 orang telah melayarinya

scrapy的流程

其流程可以描述如下：

● 调度器把requests-->引擎-->下载中间件--->下载器

● 下载器发送请求，获取响应---->下载中间件---->引擎--->爬虫中间件--->爬虫

● 爬虫提取url地址，组装成request对象---->爬虫中间件--->引擎--->调度器

● 爬虫提取数据--->引擎--->管道

● 管道进行数据的处理和保存

推荐学习：Python视频教程

注意：

图中绿色线条的表示数据的传递

注意图中中间件的位置，决定了其作用

注意其中引擎的位置，所有的模块之前相互独立，只和引擎进行交互

scrapy中每个模块的具体作用

1.scrapy项目实现流程

创建一个scrapy项目:scrapy startproject 项目名

生成一个爬虫:scrapy genspider 爬虫名允许爬取的范围

提取数据:完善spider，使用xpath等方法

保存数据:pipeline中保存数据

2. 创建scrapy项目

命令：scrapy startproject +<项目名字>

示例：scrapy startproject myspider

生成的目录和文件结果如下：

settings.py中的重点字段和内涵

● USER_AGENT 设置ua

● ROBOTSTXT_OBEY 是否遵守robots协议，默认是遵守

● CONCURRENT_REQUESTS 设置并发请求的数量，默认是16个

● DOWNLOAD_DELAY 下载延迟，默认无延迟

● COOKIES_ENABLED 是否开启cookie，即每次请求带上前一次的cookie，默认是开启的

● DEFAULT_REQUEST_HEADERS 设置默认请求头

● SPIDER_MIDDLEWARES 爬虫中间件，设置过程和管道相同

● DOWNLOADER_MIDDLEWARES 下载中间件

创建爬虫

命令：scrapy genspider +<爬虫名字> + <允许爬取的域名>

生成的目录和文件结果如下：

完善spider

完善spider即通过方法进行数据的提取等操做：

注意：

● response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法

● extract() 返回一个包含有字符串的列表

● extract_first() 返回列表中的第一个字符串，列表为空没有返回None

● spider中的parse方法必须有

● 需要抓取的url地址必须属于allowed_domains,但是start_urls中的url地址没有这个限制

● 启动爬虫的时候注意启动的位置，是在项目路径下启动

数据传递到pipeline

为什么要使用yield？

● 让整个函数变成一个生成器，有什么好处呢？

● 遍历这个函数的返回值的时候，挨个把数据读到内存，不会造成内存的瞬间占用过高

● python3中的range和python2中的xrange同理

注意：

yield能够传递的对象只能是：BaseItem,Request,dict,None

6. 完善pipeline

pipeline在settings中能够开启多个，为什么需要开启多个？

● 不同的pipeline可以处理不同爬虫的数据

● 不同的pipeline能够进行不同的数据处理的操作，比如一个进行数据清洗，一个进行数据的保存

pipeline使用注意点

● 使用之前需要在settings中开启

● pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义)，值表示距离引擎的远近，越近数据会越先经过

● 有多个pipeline的时候，process_item的方法必须return item,否则后一个pipeline取到的数据为None值

● pipeline中process_item的方法必须有，否则item没有办法接受和处理

● process_item方法接受item和spider，其中spider表示当前传递item过来的spider

本文来自 python教程栏目，欢迎学习！

Atas ialah kandungan terperinci Python爬虫-scrapy介绍及使用. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan：

scrapy reptilia

sumber：cnblogs.com

Artikel sebelumnya：Tensorflow基础（机器学习开源软件库） Artikel seterusnya：Python中回调的含义详解

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

jQuery中$(function())的作用

2020-04-03 18:08:45
详解CSS中position属性的用法

2020-04-02 18:10:17
CSS中的&是什么意思

2020-04-01 17:01:16
如何查看CentOS是否安装了MySQL

2020-03-31 18:06:25
怎么查看docker容器停止原因

2020-03-31 18:00:22
苹果电脑怎么安装docker

2020-03-31 17:44:20
如何查看一个docker镜像有哪些版本

2020-03-31 17:22:09
如何禁止docker开机启动

2020-03-31 17:09:21
如何看centos的版本

2020-03-31 17:00:48
如何使用国内docker镜像

2020-03-31 16:47:03

Isu terkini

Scrapy: Panduan untuk menyimpan ke CSV dengan tetapan lajur tersuai Jadi pada dasarnya saya mengikis data dari web dan saya mempunyai fail projek yang diimpor...

daripada 2024-04-04 14:01:17

0

1

301

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan