Python インスタント Web クローラー: API の説明-Python チュートリアル-php.cn

Python インスタント Web クローラー: API の説明

高洛峰

リリース： 2016-11-22 16:24:15

オリジナル

1474 人が閲覧しました

API 説明 - gsExtractor コンテンツエクストラクターのダウンロード

1、インターフェイス名

ダウンロードコンテンツエクストラクター

2、インターフェイスの説明

Web クローラープログラムを作成したい場合、ほとんどの時間は Web ページのデバッグに費やされることがわかります。コンテンツ抽出ルールに関しては、正規表現の構文がどんなに奇妙であっても、XPath を使用する場合でも、1 つずつ記述してデバッグする必要があります。

Web ページから多くのフィールドを抽出したい場合、XPath を 1 つずつデバッグすると非常に時間がかかります。このインターフェイスを通じて、標準 XSLT プログラムであるデバッグされた抽出スクリプトプログラムを直接取得できます。これをターゲット Web ページの DOM に対して実行するだけで、すべてのフィールドが一度に取得され、XML 形式で結果が得られます。

この XSLT エクストラクターは、MS ソフトウェアを使用して生成することも、読み取り権限がある限り、他のユーザーと共有することもできます。

データ分析やデータマイニングに使用される Web クローラープログラムでは、コンテンツエクストラクターが汎用性の大きな障害となります。このエクストラクターを API から取得すると、Web クローラープログラムをユニバーサルフレームワークとして作成できます。

3、インターフェース仕様

3.1、インターフェースアドレス(URL)

http://www.gooseeker.com/api/getextractor

3.2、リクエストタイプ(contentType)

制限なし

3.3、リクエストメソッド

HTTP GET

3.4、リクエストパラメータ

key 必須: はい; タイプ: 文字列; 説明: API

テーマの申請時に割り当てられる AppKey 必須: はい; タイプ: 文字列。 MS Moushu 台湾によって定義された名前

middle 必須: いいえ、タイプ: 文字列、説明: 複数のルールが同じルール名で定義されている場合は、

bname を入力する必要があります。必須: いいえ、タイプ: 文字列。 : 並べ替えボックス名。ルールに複数の並べ替えボックスが含まれている場合は、

3.5、戻り値の型 (contentType)

text/xml; charset=UTF-8

3.6、HTTP の戻りパラメータ

Parameters を入力する必要があります。メッセージヘッダー、次のように:

more-extractor タイプ: 文字列; 説明: 同じルール名の下に存在するエクストラクターの数。通常、このパラメータに注意を払う必要があるのは、オプションのパラメータが入力されていない場合にのみ、クライアントに複数のルールと並べ替えボックスがあることを通知するためです

3.7 。エラーメッセージ

メッセージ層のエラーは HTTP 400 で返されます。たとえば、URL のパラメータはこの仕様に準拠していません。

アプリケーション層のエラーは HTTP 200 OK で返されます。特定のエラーコードがメッセージ本文に配置されます。 XML ファイル内の XML 構造は次のとおりです:

<return>
    <code>具体的错误码</code>
</return>

ログイン後にコピー

Specific コード値は次のとおりです: keyError: 権限の検証に失敗しました

keyError：权限验证失败
paramError：URL中传来的参数有误，比如，参数名称或值不正确

ログイン後にコピー

4、使用例 (Python 言語)

サンプルコード:

# -*- coding: utf-8 -*-
from urllib import request

url = &#39;http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名&#39;

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

ログイン後にコピー

次の Iこの API をテストします