[Python]網路爬蟲（三）：異常的處理與HTTP狀態碼的分類-php教程-PHP中文網

[Python]網路爬蟲（三）：異常的處理與HTTP狀態碼的分類

WBOY

發布： 2016-08-08 09:27:16

原創

1140 人瀏覽過

先來說一說HTTP的異常處理問題。
當urlopen不能夠處理一個response時，產生urlError。
不過通常的Python APIs異常如ValueError,TypeError等也會同時產生。
HTTPError是urlError的子類，通常在特定HTTP URLs中產生。

1.URLError
通常，URLError在沒有網路連線(沒有路由到特定伺服器)，或伺服器不存在的情況下產生。

這種情況下，異常同樣會帶有"reason"屬性，它是一個tuple（可以理解為不可變的數組），

包含了一個錯誤號碼和一個錯誤訊息。

我們建造一個urllib2_test06.py來感受一下異常的處理：

[python] view plaincopy

import urllib2
try
ex
e.reason
按下F5，可以看到印出來的內容是：

也就是說，錯誤號碼是11001，內容是getaddrinfo failed .HTTPError伺服器上每一個HTTP 應答物件response包含一個數字"狀態碼"。

有時狀態碼指出伺服器無法完成請求。預設的處理器會為你處理一部分這種應答。

例如:假如response是一個"重定向"，需要客戶端從別的地址獲取文檔，urllib2將為你處理。

其他不能處理的，urlopen會產生一個HTTPError。

典型的錯誤包含"404"(頁面無法找到)，"403"(請求禁止)，和"401"(帶驗證請求)。

HTTP狀態碼表示HTTP協定所傳回的回應的狀態。

例如客戶端向伺服器發送請求，如果成功地取得請求的資源，則回傳的狀態碼為200，表示回應成功。

如果請求的資源不存在，則通常回傳404錯誤。

HTTP狀態碼通常分為5種類型，分別以1～5五個數字開頭，由3位整數組成：

---------------- -------------------------------------------------- ------------------------------

200：請求成功處理方式：獲得回應的內容，進行處理

201：請求完成，結果是建立了新資源。新創建資源的URI可在回應的實體中得到處理方式：爬蟲中不會遇到

202：請求被接受，但處理尚未完成處理方式：阻塞等待

204：伺服器端已經實現了請求，但是沒有返回新的資訊。如果客戶是使用者代理，則無須為此更新自身的文件視圖。處理方式：丟棄

300：此狀態碼不被HTTP/1.0的應用程式直接使用，只是作為3XX類型回應的預設解釋。存在多個可用的被請求資源。處理方式：若程序中能夠處理，則進行進一步處理，如果程序中不能處理，則丟棄

301：請求到的資源都會分配一個永久的URL，這樣就可以在將來通過該URL來訪問此資源處理方式：重定向到分配的URL302：請求到的資源在一個不同的URL處暫時保存處理方式：重定向到暫時的URL

304 請求的資源未更新處理方式：丟棄

400 非法請求處理方式：丟棄

處理方式：丟棄

404 沒有找到處理方式：丟棄

5XX 回應代碼以「5」開頭的狀態碼表示伺服器端發現自己出現錯誤，無法繼續執行請求處理方式：丟棄

-------------------------------------------------- -----------------------------------------

HTTPError實例產生後會有一個整數'code'屬性，是伺服器發送的相關錯誤號碼。

Error Codes錯誤碼因為預設的處理器處理了重定向(300以外號碼)，並且100-299範圍的號碼指示成功，所以你只能看到400-599的錯誤號碼。

BaseHTTPServer.BaseHTTPRequestHandler.response是一個很有用的應答號碼字典，顯示了HTTP協定所使用的所有的應答號碼。

當一個錯誤號碼產生後，伺服器傳回一個HTTP錯誤號，和一個錯誤頁面。

你可以使用HTTPError實例作為頁面傳回的應答物件response。

這表示和錯誤屬性一樣，它同樣包含了read,geturl,和info方法。

我們建造一個urllib2_test07.py來感受一下：

plaincopy

import

urllib2

req = urllib2

try
urllib2.urlopen(req)
e.code
e.code
e.code e.code
按F5頁可看見輸出了404的錯誤碼，也說沒有找到這個碼數。 3.Wrapping

所以如果你想為HTTPError或URLError做準備，將有兩個基本的辦法。推薦使用第二種。

我們建造一個urllib2_test08.py來示範一下第一個異常處理的方案： plaincopy

來自 urllib2 導入請求， urlopen，URLError，HTTPError 'http://bbs.c sdn.net/callmewhy'
)
嘗試
：
HTTPError，e:
「伺服器無法滿足請求。」印刷
'錯誤代碼：'
，e.code 除了
URL錯誤，e:
到伺服器。 '原因：'，e.原因
印刷
「沒有引發異常。」
# 一切都很好
和其他語言，請嘗試解決異常並將其內容打印出來。
這裡要注意的一點，除了HTTPError必須在第一個，否則除了 URLError 將同樣接受到HTTPError 。因為HTTPError是URLError的子類，如果URLError在前面它會捕獲到所有的URLError（包括HTTPError ）。
我們建了一個異常合
[python] view 純文字
1. 來自 urllib2 導入請求， urlopen，URLError，HTTPError 'http://bbs.c sdn.net/callmewhy'
2. )
3. 嘗試
4. ：回應 = urlopen(req)
5. 除了
7. if hasattr(e,
8. '代碼'):
9. 列印「伺服器無法滿足要求。」
13. elif hasattr(e, '原因') :
15. 列印 '我們無法連接到伺服器中。 '
19. 印刷「沒有出現異常。」
20. 以上就介紹了[Python]網路爬蟲（三）：異常的處理和HTTP狀態碼的分類，包括方面的內容，希望對PHP教程有興趣的朋友得到幫助。