API 説明 - gsExtractor コンテンツ エクストラクターのダウンロード
1、インターフェイス名
ダウンロード コンテンツ エクストラクター
2、インターフェイスの説明
Web クローラー プログラムを作成したい場合、ほとんどの時間は Web ページのデバッグに費やされることがわかります。コンテンツ抽出ルールに関しては、正規表現の構文がどんなに奇妙であっても、XPath を使用する場合でも、1 つずつ記述してデバッグする必要があります。
Web ページから多くのフィールドを抽出したい場合、XPath を 1 つずつデバッグすると非常に時間がかかります。このインターフェイスを通じて、標準 XSLT プログラムであるデバッグされた抽出スクリプト プログラムを直接取得できます。これをターゲット Web ページの DOM に対して実行するだけで、すべてのフィールドが一度に取得され、XML 形式で結果が得られます。
この XSLT エクストラクターは、MS ソフトウェアを使用して生成することも、読み取り権限がある限り、他のユーザーと共有することもできます。
データ分析やデータ マイニングに使用される Web クローラー プログラムでは、コンテンツ エクストラクターが汎用性の大きな障害となります。このエクストラクターを API から取得すると、Web クローラー プログラムをユニバーサル フレームワークとして作成できます。
3、インターフェース仕様
3.1、インターフェースアドレス(URL)
http://www.gooseeker.com/api/getextractor
3.2、リクエストタイプ(contentType)
制限なし
3.3、リクエストメソッド
HTTP GET
3.4、リクエストパラメータ
key 必須: はい; タイプ: 文字列; 説明: API
テーマの申請時に割り当てられる AppKey 必須: はい; タイプ: 文字列。 MS Moushu 台湾によって定義された名前 middle 必須: いいえ、タイプ: 文字列、説明: 複数のルールが同じルール名で定義されている場合は、bname を入力する必要があります。 必須: いいえ、タイプ: 文字列。 : 並べ替えボックス名。ルールに複数の並べ替えボックスが含まれている場合は、3.5、戻り値の型 (contentType) text/xml; charset=UTF-8
3.6、HTTP の戻りパラメータ
メッセージ層のエラーは HTTP 400 で返されます。たとえば、URL のパラメータはこの仕様に準拠していません。 アプリケーション層のエラーは HTTP 200 OK で返されます。特定のエラー コードがメッセージ本文に配置されます。 XML ファイル内の XML 構造は次のとおりです:
<return> <code>具体的错误码</code> </return>
keyError:权限验证失败 paramError:URL中传来的参数有误,比如,参数名称或值不正确
# -*- coding: utf-8 -*- from urllib import request url = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名' resp = request.urlopen(url) content = resp.read() if(content): print(content)