Maison > développement back-end > Problème PHP > Comment installer le framework de robot d'exploration php

Comment installer le framework de robot d'exploration php

爱喝马黛茶的安东尼
Libérer: 2023-02-25 16:14:02
original
2482 Les gens l'ont consulté

Comment installer le framework de robot d'exploration php

Quand il s'agit de créer des robots d'exploration, la première chose à laquelle tout le monde peut penser est Python. En fait, PHP peut également être utilisé pour écrire des programmes de robots d'exploration. PHP a toujours été simple et facile à utiliser. J'ai personnellement testé que je pouvais écrire un programme d'exploration simple en 10 minutes en utilisant le framework PHPspider.

1. Installation de l'environnement PHP

Comme Python, PHP a également besoin d'un environnement Vous pouvez utiliser PHP téléchargé sur le site officiel, ou vous pouvez utiliser XAMPP, PHPstudy et. autres environnements intégrés PHP. Un environnement intégré est recommandé, éliminant le besoin d'installer la base de données Mysql séparément.

2. Installation de Composer

Composer est un outil de gestion de packages de dépendances sous PHP, similaire à PIP en Python.

Le site officiel chinois est https://www.phpcomposer.com/

Téléchargez-le et installez-le simplement. Exécutez cmd avec win+R et entrez la commande composer si l'image suivante apparaît. , l'installation est réussie.

Comment installer le framework de robot dexploration php

3. Installation de PHPspider

Créez un dossier dans n'importe quel emplacement. Par exemple, si nous voulons capturer les données du. bref livre, nous Vous pouvez créer le dossier jianshu sur le lecteur D, puis entrer dans le dossier avec la commande cmd et exécuter la commande :

composer require owner888/phpspider
Copier après la connexion

Le résultat suivant est une installation réussie.

Comment installer le framework de robot dexploration php

Recommandations associées : "Configuration de l'environnement php"

4. Commencez à écrire le premier robot< 🎜. >

Maintenant, ouvrez le dossier jianshu, vous constaterez qu'il contient encore d'autres éléments, ne vous inquiétez pas, créez un fichier php et commencez à coder.

Comment installer le framework de robot dexploration php

La documentation de développement est ici : https://doc.phpspider.org/demo-start.html

Je ne parlerai pas des bases ici, allez directement au code, car nous faisons un tutoriel rapide de 10 minutes.

La méthode de correspondance utilise la syntaxe XPach.

<?php
require &#39;/vendor/autoload.php&#39;;
use phpspider\core\phpspider;
/* Do NOT delete this comment */
/* 不要删除这段注释 */
$configs = array(
&#39;name&#39; => &#39;简书&#39;,
&#39;log_show&#39; =>false,
&#39;tasknum&#39; => 1,
//数据库配置
&#39;db_config&#39; => array(
&#39;host&#39;  => &#39;127.0.0.1&#39;,
&#39;port&#39;  => 3306,
&#39;user&#39;  => &#39;root&#39;,
&#39;pass&#39;  => &#39;&#39;,
&#39;name&#39;  => &#39;demo&#39;,
),
&#39;export&#39; => array(
&#39;type&#39; => &#39;db&#39;,
&#39;table&#39; => &#39;jianshu&#39;,  // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表  
&#39;domains&#39; => array(
    &#39;jianshu&#39;,
    &#39;www.jianshu.com&#39;
), 
//抓取的起点
&#39;scan_urls&#39; => array(
    &#39;https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop&#39;
),
//列表页实例
&#39;list_url_regexes&#39; => array(
    "https://www.jianshu.com/c/\d+"
),
//内容页实例
//  \d+  指的是变量
&#39;content_url_regexes&#39; => array(
    "https://www.jianshu.com/p/\d+",
),
&#39;max_try&#39; => 5,
&#39;fields&#39; => array(
    array(
        &#39;name&#39; => "title",
        &#39;selector&#39; => "//h1[@class=&#39;title&#39;]",
        &#39;required&#39; => true,
    ),
    array(
        &#39;name&#39; => "content",
        &#39;selector&#39; => "//div[@class=&#39;show-content-free&#39;]",
        &#39;required&#39; => true,
    ),
),
);
$spider = new phpspider($configs);
$spider->start();
Copier après la connexion

Expliquons un peu la signification de la syntaxe :

//h1[@class=&#39;title&#39;]
Copier après la connexion

Obtenir tous les nœuds h1 avec la valeur de classe title

//div[@class=&#39;show-content-free&#39;]
Copier après la connexion

Obtenir tous les divs avec la valeur de classe show-content-free Après avoir terminé le code du nœud

, pensez à créer la base de données et la table de données correspondantes en fonction du contenu à capturer, et les champs doivent être alignés.

Comment installer le framework de robot dexploration php

Saisissez ensuite cmd :

php -f d:\jianshu\spider.php
Copier après la connexion
Exécutez comme suit :

Comment installer le framework de robot dexploration php

Comment installer le framework de robot dexploration php

Ouvrez les données et jetez un œil. Avez-vous tout capturé ?

Comment installer le framework de robot dexploration php

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal