python 爬蟲解析效率如何提升?-PHP中文網路問答

文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python 爬蟲解析效率如何提升?

世界只因有你

世界只因有你 2017-06-12 09:20:36

0

3

665

現在採用的是在windows 環境下採用多執行緒的方式進行爬取,
使用beautifulsoup lxml進行解析.

N個爬取執行緒->解析佇列->1個解析執行緒->儲存佇列->1個儲存執行緒

整個執行程式的效率卡在計算密集的解析執行緒中，如果只是增加解析執行緒數量的話，反而增加執行緒切換開銷速度變慢。

請問下有什麼辦法可以較為明顯的提升解析效率？

根據兩位大腿的說明準備採用
非同步爬取->解析佇列->N個解析進程->儲存佇列->儲存執行緒

準備開工

世界只因有你

世界只因有你

全部回覆 (3)

为情所困

为情所困2017-06-12 09:22:36 3樓

其實我覺得, 你在前面N個爬取線程可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗,但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.
1個解析線程換成進程池,多開幾個進程去計算密集處理, 其餘應該可以不用改, 如果還想再搞, 將核心部分用c/c++重寫咯, 希望可以幫到你

點贊+0

新增回覆

刘奇2017-06-12 09:22:36 2樓

我的做法是多進程。多進程的好處是當單機效能不夠的時候，可以隨時切換為分散式爬蟲。

點贊+0

新增回覆

淡淡烟草味

淡淡烟草味2017-06-12 09:22:36 1樓

可以上網找下tornade異步爬蟲吧,我正在用這個

點贊+0

新增回覆

熱門專題

更多>

熱門文章

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1396299
php入門教程之一週學會PHP

4208745
JAVA 初級入門影片教學

2360435

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板

關於我們免責聲明 Sitemap: PHP中文網：公益線上PHP培訓，幫助PHP學習者快速成長！