mysql - Python深度爬取一个网站-PHP 중국어 네트워크 Q&A

기사 주제 학습 다운로드 Q&A 프로그래밍 사전 게임 최근 업데이트

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

mysql - Python深度爬取一个网站

伊谢尔伦 2017-04-17 17:36:19

0

3

472

毕业设计项目需要从coursera,edx等大型MOOC网站爬取大量公开课课程信息，尝试着爬取了coursera的课程信息，但是每次都要重新在python代码中写入新的url，如：coursera.org/computer/database和coursera.org/computer/algorithm才可以分别爬去database和algorithm的信息，可是coursera中有10大类，平均每类课程又分有6-8个小分类，也就是我需要该大概80次链接，感觉虽然已经比手动录入快很多了，但是自动化程度仍旧带来了一个效率低下的问题，请问有什么方法可以深度爬取一个网站的信息，让人工操作的的工序少一些呢？了解过深度搜索和广度搜索的算法，但是不知道在这里应该如何使用呢？P.S.在这里我是用的python中beautifulsoup4的package进行的html代码解析从而实现crawler。
码渣跪求，大神们能配合代码或者伪码来指导一下就最好啦！thx！

伊谢尔伦

小伙看你根骨奇佳，潜力无限，来学PHP伐。

모든 응답(3)

Peter_Zhu2017-04-17 17:38:19 3층

爬的时候把这些url加入到一个url数组中，依次爬取url数组中的url就可以了，可以把这个理解为广度优先搜索

좋다 +0

답글 추가

伊谢尔伦2017-04-17 17:38:19 2층

先爬列表页，然后爬子页面，你现在子页面已经处理好了，多爬加个列表页就行了
用不着什么深度广度算法

좋다 +0

답글 추가

Peter_Zhu2017-04-17 17:38:19 1층

直接用scrapy

좋다 +0

답글 추가

인기 주제

더>

인기 기사

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿

회사 소개 부인 성명 Sitemap: PHP 중국어 웹사이트：공공복지 온라인 PHP 교육，PHP 학습자의 빠른 성장을 도와주세요！