【Python】Webクローラ(3): HTTPステータスコードの例外処理と分類-PHPチュートリアル-php.cn

【Python】Webクローラ(3): HTTPステータスコードの例外処理と分類

WBOY

リリース： 2016-08-08 09:27:16

オリジナル

1141 人が閲覧しました

まず HTTP 例外処理について話しましょう。
urlopen が応答を処理できない場合、urlError が生成されます。
ただし、ValueError、TypeErrorなどの一般的なPython APIの例外も同時に発生します。
HTTPError は urlError のサブクラスで、通常は特定の HTTP URL で生成されます。

1.URLError
通常、URLError は、ネットワーク接続がない (特定のサーバーへのルーティングがない) か、サーバーが存在しない場合に発生します。

この場合、例外には「reason」属性もあり、これはタプル (不変の配列として理解できます) であり、

にはエラー番号とエラーメッセージが含まれます。

例外処理を体験するために urllib2_test06.py を構築しましょう:

[python] ビュー普通のコピー

import urllib2
req = urllib2.Request('http://www.baibai.com')
try: urllib2.urlopen(req)
以外 urllib2.URLError, e:
print e.reason

F5 キーを押すと、印刷された内容が次のように表示されます:

[Errno 11001] getaddrinfo failed

つまり、エラー番号は 11001 で、内容は getaddrinfo failed

2 .HTTPError
サーバー上のすべての HTTP 応答オブジェクトの応答には、数値の「ステータスコード」が含まれています。

ステータスコードは、サーバーがリクエストを完了できないことを示す場合があります。デフォルトのハンドラーは、この応答の一部を処理します。

例: 応答が「リダイレクト」で、クライアントが別のアドレスからドキュメントを取得する必要がある場合、urllib2 がそれを処理します。

その他、処理できないもの、urlopen は HTTPError を生成します。

典型的なエラーには、「404」(ページが見つかりません)、「403」(リクエストが禁止されています)、「401」(検証付きリクエスト)などがあります。

HTTPステータスコードは、HTTPプロトコルによって返される応答のステータスを示します。

たとえば、クライアントがサーバーにリクエストを送信し、リクエストされたリソースが正常に取得された場合、返されるステータスコードは 200 で、応答が成功したことを示します。

要求されたリソースが存在しない場合、通常は 404 エラーが返されます。

HTTPステータスコードは、通常、1から5までの5つの数字から始まり、3桁の整数で構成される次の5種類に分類されます:

---------------- -------------------------------------------------- ----------------------------------

200: リクエスト成功処理方法: レスポンス内容を取得し、処理してください

201: リクエストが完了し、新しいリソースが作成されます。新しく作成されたリソースの URI は応答エンティティで取得できます。処理方法: クローラーでは検出されません。

202: リクエストは受け入れられますが、処理はまだ完了していません。

204: リクエストはすでにサーバー側で実行されましたが、新しい情報は返されませんでした。クライアントがユーザーエージェントの場合、この目的のために独自のドキュメントビューを更新する必要はありません。処理方法: 破棄

300: このステータスコードは HTTP/1.0 アプリケーションによって直接使用されませんが、3XX タイプの応答のデフォルトの解釈としてのみ使用されます。要求された利用可能なリソースが複数あります。処理方法: プログラムで処理できる場合はさらに処理され、プログラムで処理できない場合は破棄されます。そのため、要求されたリソースには永続的な URL が割り当てられます。処理方法: 割り当てられた URL にリダイレクト

: 要求されたリソースは別の URL に一時的に保存されます処理方法: 一時 URL にリダイレクト

304 要求されたリソースは更新されていません処理方法：破棄

400 不正なリクエスト処理方法：破棄

401 不正な処理方法：破棄

403 禁止処理方法：破棄

404 なしFound 処理方法: 破棄

5XX 「5」で始まるステータスコードは、サーバーがエラーを検出し、リクエストの実行を続行できないことを示します処理方法: 破棄

---- -------------------------------------------------- - --------------------------------------

HTTPErrorインスタンスが生成されます整数の「code」属性があり、これはサーバーによって送信された関連エラー番号です。

エラーコードデフォルトのプロセッサがリダイレクト (300 以外の数字) を処理し、100 ～ 299 の範囲の数字が成功を示すため、エラー番号 400 ～ 599 のみが表示されます。
BaseHTTPServer.BaseHTTPRequestHandler.response は、HTTP プロトコルで使用されるすべての応答番号を示す、非常に便利な応答番号辞書です。

エラー番号が生成されると、サーバーはHTTPエラー番号とエラーページを返します。

ページから返される応答オブジェクトの応答として HTTPError インスタンスを使用できます。

これは、error 属性と同様に、read、geturl、info メソッドも含まれていることを意味します。

urllib2_test07.py を構築して体験してみましょう:

[python] ビュー普通のコピー