Artikel Topik pembelajaran Muat turun Soal Jawab Kamus Pengaturcaraan Permainan kemas kini terkini

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

Rumah > pembangunan bahagian belakang > Tutorial Python > teks badan

强大的爬虫框架Scrapy是什么？

爱喝马黛茶的安东尼

Lepaskan： 2019-06-05 18:02:55

ke hadapan

4128 orang telah melayarinya

网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面，以获取这些网站的内容。而Scrapy则是一种十分强大的爬虫框架，并且它是用python编写的。下面我们来一起看看什么是Scrapy?

一、所需知识

需要的知识有：linux系统 + Python语言 +Scrapy框架 + XPath（XML路径语言） + 一些辅助工具（浏览器的开发者工具和XPath helper插件）。

我们的爬虫是使用Python语言的Scrapy爬虫框架开发，在linux上运行，所以需要熟练掌握Python语言和Scrapy框架以及linux操作系统的基本知识。

我们需要使用XPath从目标HTML页面中提取我们想要的东西，包括汉语文字段落和“下一页”的链接等。

浏览器的开发者工具是编写爬虫主要使用的辅助工具。使用该工具可以分析页面链接的规律，可以用来定位HTML页面中想要提取的元素，然后提取其XPath表达式用于爬虫代码中，还可以查看页面请求头的Referer、Cookie等信息。如果爬取的目标是动态网站，该工具还可以分析出背后的JavaScript请求。

XPath helper插件是chrome的一个插件，基于chrome核的浏览器也可以安装。XPath helper可以用来调试XPath表达式。

二、环境搭建

安装Scrapy可以使用pip命令：pip install Scrapy

Scrapy相关依赖较多，因此在安装过程中可能遇到如下问题：

ImportError: No module named w3lib.http

　解决：pip install w3lib

ImportError: No module named twisted

解决：pip install twisted

ImportError: No module named lxml.HTML

解决：pip install lxml

error: libxml/xmlversion.h: No such file or directory

解决：apt-get install libxml2-dev libxslt-dev

　　　 apt-get install Python-lxml

ImportError: No module named cssselect

解决：pip install cssselect

ImportError: No module named OpenSSL

解决：pip install pyOpenSSL

建议：

使用简单的方法：使用anaconda安装。

三、Scrapy框架

1. Scrapy简介

Scrapy是大名鼎鼎的爬虫框架，是使用Python编写的。Scrapy可以很方便的进行web抓取，并且也可以很方便的根据自己的需求进行定制。

Scrapy整体架构大致如下：

强大的爬虫框架Scrapy是什么？

2.Scrapy组件

Scrapy主要包括了以下组件：

引擎(Scrapy)

用来处理整个系统的数据流,触发事务(框架核心)。

调度器(Scheduler)

用来接受引擎发过来的请求,压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的) 。

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

Scrapy运行流程：

1.引擎从调度器中取出一个链接(URL)用于接下来的抓取

2.引擎把URL封装成一个请求(Request)传给下载器

3.下载器把资源下载下来，并封装成应答包(Response)

4.爬虫解析Response

5.解析出实体（Item）,则交给实体管道进行进一步的处理

6.解析出的是链接（URL）,则把URL交给调度器等待抓取

Atas ialah kandungan terperinci 强大的爬虫框架Scrapy是什么？. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan：

python scrapy 爬虫

sumber：csdn.net

Artikel sebelumnya：python定义函数 Artikel seterusnya：面对JS渲染的网页如何分析Ajax请求

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

新手入门PHP必知的七种数据类型

2023-04-08 08:58:01
PHP实现文件分片上传的方法

2020-01-17 17:35:14
PHP基于Redis实现轻量级延迟队列（多线程）

2020-01-17 17:19:41
preference字段在路由表中代表什么含义

2020-01-14 09:53:53
problem loading acadres.dll resource file是什么意思

2020-01-14 09:42:06
prettier怎么设置

2020-01-14 09:22:49
thumbda是什么文件

2020-01-13 17:18:04
system thread无限重启怎么办

2020-01-13 17:02:44
system pause 怎么用

2020-01-13 16:53:40
symbol字符167在哪里

2020-01-13 16:47:08

Isu terkini

Python/MySQL tidak dapat mengekalkan data integer dengan betul Tiada kod diperlukan di sini. Saya mahu menyimpan nombor yang sangat panjang kerana saya s...

daripada 2024-04-04 19:09:44

0

1

367

Menggunakan selenium ingin mengklik dan menentukan URL dalam kelas Saya perlukan petua lain hari ini. Saya cuba membina kod Python/Selenium dan ideanya ialah...

daripada 2024-04-04 14:14:44

0

1

3492

Selenium + Python - periksa imej melalui execute_script Saya perlu mengesahkan bahawa imej dipaparkan pada halaman menggunakan selenium dalam pyth...

daripada 2024-04-03 09:32:15

0

1

375

Bagaimana untuk mengekalkan baris X pertama dan memadamkan baris jadual Saya mempunyai jadual besar dengan berjuta-juta rekod dalam MySQLincident_archive, saya ma...

daripada 2024-04-01 18:32:54

0

1

347

Bagaimana untuk mengikis teks Cuaca Google tertentu menggunakan BeautifulSoup? Bagaimana untuk mencari teks kursus "New York City, USA" dalam Python menggunaka...

daripada 2024-04-01 14:06:14

0

1

308

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Tutorial video perangkak praktikal Python

120292
Tutorial video praktikal perangkak web Python Scrapy

51310
Tutorial video Python Akademi Geek

210301
Pengenalan berasaskan sifar Little Turtle untuk mempelajari tutorial video Python

503259

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan

Tentang kita Penafian Sitemap: Laman web PHP Cina：Latihan PHP dalam talian kebajikan awam，Bantu pelajar PHP berkembang dengan cepat！