首頁 後端開發 PHP問題 php爬蟲框架怎麼安裝

php爬蟲框架怎麼安裝

Sep 29, 2019 pm 05:09 PM
php 安裝 框架 爬蟲

php爬蟲框架怎麼安裝

說到做爬蟲,大家都可能第一時間想到的是python,其實php也是可以用來寫爬蟲程式的。 php一貫簡潔、易用,親測使用PHPspider框架10分鐘就能寫出一個簡單的爬蟲程式。

一、PHP環境安裝

和python一樣,PHP也需要環境,可以使用官網下載的PHP,也可以使用XAMPP、PHPstudy等整合環境下的PHP。比較推薦整合環境,省去單獨安裝Mysql資料庫。

二、composer安裝

composer是PHP下的依賴套件管理工具,類似Python中的PIP。

中文官網為https://www.phpcomposer.com/

下載安裝即可,win R執行cmd,輸入composer指令,出現如下圖說明安裝成功了。

php爬蟲框架怎麼安裝

三、PHPspider安裝

在任意位置建立一個資料夾,例如我們要抓取簡書的數據,我們可以在D碟建立jianshu資料夾,然後cmd指令進入該資料夾,執行指令:

composer require owner888/phpspider
登入後複製

如下結果便是成功安裝了。

php爬蟲框架怎麼安裝

相關推薦:《php環境搭建

4、開始寫第一個爬蟲

現在打開jianshu資料夾,會發現裡面多了一些東西,不用管它,建立一個php文件,開始打程式碼。

php爬蟲框架怎麼安裝

開發文件在這:https://doc.phpspider.org/demo-start.html

這邊不講基礎,直接上程式碼,因為咱們是做的10分鐘快速教學。

匹配方式使用XPach語法。

<?php
require &#39;/vendor/autoload.php&#39;;
use phpspider\core\phpspider;
/* Do NOT delete this comment */
/* 不要删除这段注释 */
$configs = array(
&#39;name&#39; => &#39;简书&#39;,
&#39;log_show&#39; =>false,
&#39;tasknum&#39; => 1,
//数据库配置
&#39;db_config&#39; => array(
&#39;host&#39;  => &#39;127.0.0.1&#39;,
&#39;port&#39;  => 3306,
&#39;user&#39;  => &#39;root&#39;,
&#39;pass&#39;  => &#39;&#39;,
&#39;name&#39;  => &#39;demo&#39;,
),
&#39;export&#39; => array(
&#39;type&#39; => &#39;db&#39;,
&#39;table&#39; => &#39;jianshu&#39;,  // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表  
&#39;domains&#39; => array(
    &#39;jianshu&#39;,
    &#39;www.jianshu.com&#39;
), 
//抓取的起点
&#39;scan_urls&#39; => array(
    &#39;https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop&#39;
),
//列表页实例
&#39;list_url_regexes&#39; => array(
    "https://www.jianshu.com/c/\d+"
),
//内容页实例
//  \d+  指的是变量
&#39;content_url_regexes&#39; => array(
    "https://www.jianshu.com/p/\d+",
),
&#39;max_try&#39; => 5,
&#39;fields&#39; => array(
    array(
        &#39;name&#39; => "title",
        &#39;selector&#39; => "//h1[@class=&#39;title&#39;]",
        &#39;required&#39; => true,
    ),
    array(
        &#39;name&#39; => "content",
        &#39;selector&#39; => "//div[@class=&#39;show-content-free&#39;]",
        &#39;required&#39; => true,
    ),
),
);
$spider = new phpspider($configs);
$spider->start();
登入後複製

稍微解釋一下句法的意義:

//h1[@class=&#39;title&#39;]
登入後複製

取得所有class值為title的h1節點

//div[@class=&#39;show-content-free&#39;]
登入後複製

取得所有class值為show-content-free的div節點

打完程式碼後,記得根據要抓取的內容建立對應的資料庫、資料表,欄位要能對上。

php爬蟲框架怎麼安裝

接著cmd,輸入:

php -f d:\jianshu\spider.php
登入後複製

執行如下:

php爬蟲框架怎麼安裝

php爬蟲框架怎麼安裝

php爬蟲框架怎麼安裝

####################### ####打開資料看一下,是不是都抓取到了呢? ############

以上是php爬蟲框架怎麼安裝的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱門文章

倉庫:如何復興隊友
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 週前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱門文章

倉庫:如何復興隊友
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 週前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱門文章標籤

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

適用於 Ubuntu 和 Debian 的 PHP 8.4 安裝和升級指南 適用於 Ubuntu 和 Debian 的 PHP 8.4 安裝和升級指南 Dec 24, 2024 pm 04:42 PM

適用於 Ubuntu 和 Debian 的 PHP 8.4 安裝和升級指南

CakePHP 日期和時間 CakePHP 日期和時間 Sep 10, 2024 pm 05:27 PM

CakePHP 日期和時間

CakePHP 專案配置 CakePHP 專案配置 Sep 10, 2024 pm 05:25 PM

CakePHP 專案配置

CakePHP 檔案上傳 CakePHP 檔案上傳 Sep 10, 2024 pm 05:27 PM

CakePHP 檔案上傳

CakePHP 路由 CakePHP 路由 Sep 10, 2024 pm 05:25 PM

CakePHP 路由

討論 CakePHP 討論 CakePHP Sep 10, 2024 pm 05:28 PM

討論 CakePHP

CakePHP 快速指南 CakePHP 快速指南 Sep 10, 2024 pm 05:27 PM

CakePHP 快速指南

如何設定 Visual Studio Code (VS Code) 進行 PHP 開發 如何設定 Visual Studio Code (VS Code) 進行 PHP 開發 Dec 20, 2024 am 11:31 AM

如何設定 Visual Studio Code (VS Code) 進行 PHP 開發

See all articles