文章专题学习下载问答编程词典手游最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首页 > 后端开发 > Python教程 > 正文

python的爬虫框架有哪些

爱喝马黛茶的安东尼

发布： 2019-06-20 09:49:35

原创

8301 人浏览过

python的爬虫框架有哪些

python的爬虫框架有哪些？下面给大家介绍一个常用的python爬虫的十大框架：

一、Scrapy

Scrapy框架是一套比较成熟的Python爬虫框架，是使用Python开发的快速、高层次的信息爬取框架，可以高效的爬取web页面并提取出结构化数据。

Scrapy应用范围很广，爬虫开发、数据挖掘、数据监测、自动化测试等。

二、PySpider

是国人用python编写的一个功能强大的网络爬虫框架。主要特性如下：

1、强大的WebUI，包含：脚本编辑器、任务监控器，项目管理器和结果查看器；
2、多数据库支持，包括：MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL with SQLAlchemy等；
3、使用RabbitMQ, Beanstalk, Redis 和Kombu作为消息队列；
4、支持任务优先级设定、定时任务、失败后重试等；
5、支持分布式爬虫

三、Crawley

高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等

相关推荐：《python视频教程》

四、Portia

可视化爬取网页内容

五、newspaper

提取新闻、文章以及内容分析
六、python-goose

java写的文章提取工具
七、Beautiful Soup

名气大，整合了一些常用爬虫需求。缺点：不能加载JS。

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。这个我是使用的特别频繁的。在获取html元素，都是bs4完成的。

八、mechanize

优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
九、selenium

这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。
十、cola

一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。

以上是python的爬虫框架有哪些的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

python 框架

来源：php.cn

上一篇：python招聘要求高吗下一篇：python能做游戏吗

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

新手入门PHP必知的七种数据类型

2023-04-08 08:58:01
PHP实现文件分片上传的方法

2020-01-17 17:35:14
PHP基于Redis实现轻量级延迟队列（多线程）

2020-01-17 17:19:41
preference字段在路由表中代表什么含义

2020-01-14 09:53:53
problem loading acadres.dll resource file是什么意思

2020-01-14 09:42:06
prettier怎么设置

2020-01-14 09:22:49
thumbda是什么文件

2020-01-13 17:18:04
system thread无限重启怎么办

2020-01-13 17:02:44
system pause 怎么用

2020-01-13 16:53:40
symbol字符167在哪里

2020-01-13 16:47:08

最新问题

Python/MySQL无法正确持久化整数数据在这里不需要任何代码。我想要保存一个非常长的数字，因为我正在制作一个游戏，需要保存分数。但是我测试了一下，将分数设置为25000000000，但在mysql中保存为21474836...

来自于 2024-04-04 19:09:44

0

1

367

使用selenium想要点击并在类中定义URL 今天我需要另一个提示。我正在尝试构建Python/Selenium代码，想法是单击www.thewebsiteIwantoclickon下面是我正在处理的HTML示例。类entit...

来自于 2024-04-04 14:14:44

0

1

3492

Selenium + Python - 通过execute_script检查图像我需要使用python中的selenium验证图像是否显示在页面上。例如，让我们检查https://openweathermap.org/页面左上角的徽标。我使用execute_s...

来自于 2024-04-03 09:32:15

0

1

375

保留前X行，删除表格行的方法我在MySQLincident_archive中有一个包含数百万条记录的大表，我想按created列对行进行排序，并保留前X行并删除其余行，最有效的方法是什么。到目前为止，我用Py...

来自于 2024-04-01 18:32:54

0

1

347

如何使用 BeautifulSoup 抓取特定的谷歌天气文本？如何使用BeautifulSoup在Python中找到课程文本“美国纽约市”？尝试复制视频进行练习，但不再有效。尝试在官方文档中找到一些内容，但没有成功。或者我的get_html_...

来自于 2024-04-01 14:06:14

0

1

308

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责声明 Sitemap: PHP中文网：公益在线PHP培训，帮助PHP学习者快速成长！