神器啊！比requests還好用的Python高效爬蟲框架！-Python教學-PHP中文網

神器啊！比requests還好用的Python高效爬蟲框架！

WBOY

發布： 2023-04-13 14:25:03

轉載

1448 人瀏覽過

神器啊！比requests還好用的Python高效爬蟲框架！

最近公司 Python 後端專案進行重構，整個後端邏輯基本上都變更為採用"非同步"協程的方式實現。看著滿螢幕經過 async await（協程在 Python 中的實作）修飾的程式碼，我突然感到一臉懵逼，不知所措。

雖然之前有了解過"協程"是什麼東西，但並沒有深入探索，於是正好藉著這次機會可以好好學習一下。

Let's go

神器啊！比requests還好用的Python高效爬蟲框架！

什麼是協程？

簡單來說，協程是一種基於執行緒之上，但又比執行緒更加輕量級的存在。對於系統核心來說，協程具有不可見的特性，所以這種由程式設計師自己寫程式來管理的輕量級執行緒又常被稱為 "用戶空間執行緒"。

協程比多執行緒好在哪呢？

1. 執行緒的控制權在作業系統手中，而協程的控制權完全掌握在使用者自己手中，因此利用協程可以減少程式執行時的上下文切換，有效提高程式運作效率。

2. 建立執行緒時，系統預設分配給執行緒的堆疊大小是 1 M，而協程更輕量，接近 1 K ，因此可以在相同的記憶體中開啟更多的協程。

3. 由於協程的本質不是多線程而是單線程，所以不需要多線程的鎖定機制。因為只有一個線程，也不存在同時寫變數而引起的衝突。在協程中控制共享資源不需要加鎖，只需要判斷狀態即可。所以協程的執行效率比多執行緒高很多，同時也有效避免了多執行緒中的競爭關係。

協程的適用 & 不適用情境

適用情境：協程適用於被阻塞的，且需要大量並發的場景。

不適用場景：協程不適用於存在大量計算的場景（因為協程的本質是單執行緒來回切換），如果遇到這種情況，還是應該使用其他手段去解決。

初探異步http 框架httpx

至此我們對"協程" 應該有了個大概的了解，但故事說到這裡，相信有朋友還是滿臉疑問："協程"對於介面測試有什麼幫助呢？不要急，答案就在下面。

相信用過 Python 做介面測試的朋友都對 requests 函式庫不陌生。 requests 中實作的 http 請求是同步請求，但其實是基於 http 請求 IO 阻塞的特性，非常適合用協程來實現 "非同步" http 請求從而提升測試效率。

相信早就有人注意到了這一點，於是在 Github 經過了一番探索後，果不其然，最終尋找到了支持協程 "異步" 調用 http 的開源庫: httpx。

什麼是 httpx

httpx 是幾乎繼承了所有 requests 的特性並且支援 "非同步" http 請求的開源函式庫。簡單來說，可以認為 httpx 是強化版 requests。

下面大家可以跟著我一起見見 httpx 的強大。

安裝

httpx 的安裝非常簡單，在 Python 3.6 以上的環境執行。

pip install httpx

登入後複製

最佳實踐

俗話說得好，效率決定成敗。我分別使用了httpx 非同步和同步的方式對批量http 請求進行了耗時比較，來一起看看結果吧～

首先來看看同步http 請求的耗時表現：

import asyncio
import httpx
import threading
import time
def sync_main(url, sign):
 response = httpx.get(url).status_code
 print(f'sync_main: {threading.current_thread()}: {sign}2 + 1{response}')
sync_start = time.time()
[sync_main(url='http://www.baidu.com', sign=i) for i in range(200)]
sync_end = time.time()
print(sync_end - sync_start)

登入後複製

程式碼比較簡單，可以看到在sync_main 中則實作了同步http 存取百度200 次。

運行後輸出如下（截取了部分關鍵輸出...）：

sync_main: <_MainThread(MainThread, started 4471512512)>: 192: 200
sync_main: <_MainThread(MainThread, started 4471512512)>: 193: 200
sync_main: <_MainThread(MainThread, started 4471512512)>: 194: 200
sync_main: <_MainThread(MainThread, started 4471512512)>: 195: 200
sync_main: <_MainThread(MainThread, started 4471512512)>: 196: 200
sync_main: <_MainThread(MainThread, started 4471512512)>: 197: 200
sync_main: <_MainThread(MainThread, started 4471512512)>: 198: 200
sync_main: <_MainThread(MainThread, started 4471512512)>: 199: 200
16.56578803062439

登入後複製

可以看到在上面的輸出中, 主線程沒有進行切換（因為本來就是單線程啊餵！）請求按照順序執行（因為是同步請求）。

程式運行共耗時 16.6 秒。

下面我們試試"非同步" http 請求：

import asyncio
import httpx
import threading
import time
client = httpx.AsyncClient()
async def async_main(url, sign):
 response = await client.get(url)
 status_code = response.status_code
 print(f'async_main: {threading.current_thread()}: {sign}:{status_code}')
loop = asyncio.get_event_loop()
tasks = [async_main(url='http://www.baidu.com', sign=i) for i in range(200)]
async_start = time.time()
loop.run_until_complete(asyncio.wait(tasks))
async_end = time.time()
loop.close()
print(async_end - async_start)

登入後複製

上述程式碼在async_main 中用async await 關鍵字實現了"異步" http，透過asyncio ( 異步io 庫請求百度首頁200次並列印出了耗時）。

運行程式碼後可以看到以下輸出（截取了部分關鍵輸出...）。

async_main: <_MainThread(MainThread, started 4471512512)>: 56: 200
async_main: <_MainThread(MainThread, started 4471512512)>: 99: 200
async_main: <_MainThread(MainThread, started 4471512512)>: 67: 200
async_main: <_MainThread(MainThread, started 4471512512)>: 93: 200
async_main: <_MainThread(MainThread, started 4471512512)>: 125: 200
async_main: <_MainThread(MainThread, started 4471512512)>: 193: 200
async_main: <_MainThread(MainThread, started 4471512512)>: 100: 200
4.518340110778809

登入後複製

可以看到順序雖然是亂的（56，99，67...） (這是因為程式在協程間不停切換) 但是主執行緒並沒有切換（協程本質還是單線程）。

程式共耗時 4.5 秒。

比起同步請求耗時的 16.6 秒縮短了接近 73 %！

俗話說得好，一步快，步步快。在耗時方面，"非同步" httpx 確實比同步 http 快了很多。當然，"協程" 不僅能在請求效率方面賦能接口測試，掌握 "協程"後，相信小伙伴們的技術水平也能提升一個台階，從而設計出更優秀的測試框架。

好了，這就是今天分享的全部內容，喜歡就點個讚吧~

以上是神器啊！比requests還好用的Python高效爬蟲框架！的詳細內容。更多資訊請關注PHP中文網其他相關文章！