首頁 > 後端開發 > Python教學 > python爬蟲要學什麼

python爬蟲要學什麼

silencement
發布: 2020-09-15 15:56:05
原創
6532 人瀏覽過

爬蟲,被稱為網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,主要用於搜索引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到資料庫中,然後跳到另一個網站。傳統爬蟲從一個或若干初始網頁的URL開始,取得初始網頁上的URL,再不斷從目前頁面上抽取新的URL放入佇列,直到滿足系統的一定停止條件。

python爬蟲要學什麼

學習之前的準備

#1、一顆熱愛學習

2、不屈不撓的心一台有鍵盤的電腦(什麼系統都行。我用的os x,所以範例會以此為準)

#3、html相關的一些前段知識。不需要精通,能懂一點就夠! Python的基礎語法知識 。

具體的學習路線

總體分為三個大面向:

1、簡單的定向腳本爬蟲(request -- - bs4 --- re)

2、大型框架式爬蟲(Scrapy框架為主)

3、瀏覽器模擬爬蟲(Mechanize模擬和Selenium 模擬)

#具體步驟:

1、Beautiful Soup 

requests庫的安裝與使用,安裝beautiful soup 爬蟲環境,beautiful soup 的解析器,re庫正則表達式的使用,bs4 爬蟲實踐。取得百度貼吧的內容bs4 爬蟲實踐,取得雙色球中獎資訊bs4 爬蟲實踐, 取得起點小說資訊bs4 爬蟲實踐,取得電影資訊bs4 爬蟲實踐。取得悅音台榜單

2、Scrapy 爬蟲框架

安裝Scrapy,Scrapy中的選擇器Xpath和CSSScrapy 爬蟲實踐,今日影視Scrapy 爬蟲實踐,天氣預報Scrapy 爬蟲實踐,獲取代理Scrapy 爬蟲實踐,糗事百科Scrapy 爬蟲實踐, 爬蟲相關攻防(代理池相關)

3、瀏覽器模擬爬蟲

Mechanize模組的安裝與使用,利用Mechanize獲取樂音台公告,Selenium模組的安裝與使用,瀏覽器的選擇PhantomJS,Selenium & PhantomJS 實踐,獲取代理;Selenium & PhantomJS 實踐,漫畫爬蟲。

以上是python爬蟲要學什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板