Python即時網路爬蟲：API說明-Python教學-PHP中文網

Python即時網路爬蟲：API說明

高洛峰

發布： 2016-11-22 16:24:15

原創

1475 人瀏覽過

API說明——下載gsExtractor內容提取器

1，介面名稱

下載內容提取器

2，介面說明

如果您想編寫一個網絡爬蟲程序，您會發現大部分時間耗費在調測網頁內容擷取規則上，不講正規表示式的語法如何怪異，即便使用XPath，您也得逐一編寫和除錯。

如果要從一個網頁上提取很多字段，逐個調試XPath將是十分耗時的。透過這個接口，你可以直接獲得一個調測好的提取器腳本程序，是標準的XSLT程序，您只需針對目標網頁的DOM運行它，就能獲得XML格式的結果，所有字段一次性獲得。

這個XSLT提取器可以是您用MS謀數台產生的，也可以是其他人共享給您的，只要您有讀取權限，皆可下載使用。

用於資料分析和資料探勘的網路爬蟲程式中，內容擷取器是影響通用性的關鍵障礙，如果這個擷取器是從API中獲得的，您的網路爬蟲程式就能寫成通用的框架。

3，介面規格

3.1，介面位址（URL）

http://www.gooseeker.com/api/getextractor

3.2，請求型別（contentType）

33.

HTTP GET

3.4，請求參數

key 必選：Yes；類型：String；說明：申請API時分配的AppKey

theme 必選：Yes；類型：String；說明：提取器名，就是用MS謀數台定義的規則名稱

middle 必選：No；類型：String；說明：規則編號，如果相同規則名稱下定義了多個規則，則需填入

bname 必選：No；類型：String；說明：整理箱名，如果規則含有多個整理箱，需填寫

3.5，回傳型別（contentType）

text/xml; charset=UTF-8

3.6，傳回參數

HTTP訊息標頭中的參數，如下：

more-extractor 類型：String；說明：相同規則名稱下有多少提取器。通常只在可選參數沒有填寫的時候需要注意這個參數，用以提示客戶端有多個規則和整理箱，客戶端自己決定是否要在發送請求時攜帶明確的參數

3.7，回傳錯誤訊息

訊息層錯誤以HTTP 400返回，例如，URL中的參數不符合本規範

應用層錯誤以HTTP 200 OK返回，具體錯誤碼用XML檔案放在訊息體中，XML結構如下：

<return>
    <code>具体的错误码</code>
</return>

登入後複製

具體的code值如下：keyError：權限驗證失敗

keyError：权限验证失败
paramError：URL中传来的参数有误，比如，参数名称或值不正确

登入後複製

4，用法範例（python語言）

範例程式碼：

# -*- coding: utf-8 -*-
from urllib import request

url = &#39;http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名&#39;

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

登入後複製

🎜接下來我會對此API進行測試🎜