Quand il s'agit de créer des robots d'exploration, la première chose à laquelle tout le monde peut penser est Python. En fait, PHP peut également être utilisé pour écrire des programmes de robots d'exploration. PHP a toujours été simple et facile à utiliser. J'ai personnellement testé que je pouvais écrire un programme d'exploration simple en 10 minutes en utilisant le framework PHPspider.
1. Installation de l'environnement PHP
Comme Python, PHP a également besoin d'un environnement Vous pouvez utiliser PHP téléchargé sur le site officiel, ou vous pouvez utiliser XAMPP, PHPstudy et. autres environnements intégrés PHP. Un environnement intégré est recommandé, éliminant le besoin d'installer la base de données Mysql séparément.
2. Installation de Composer
Composer est un outil de gestion de packages de dépendances sous PHP, similaire à PIP en Python.
Le site officiel chinois est https://www.phpcomposer.com/
Téléchargez-le et installez-le simplement. Exécutez cmd avec win+R et entrez la commande composer si l'image suivante apparaît. , l'installation est réussie.
3. Installation de PHPspider
Créez un dossier dans n'importe quel emplacement. Par exemple, si nous voulons capturer les données du. bref livre, nous Vous pouvez créer le dossier jianshu sur le lecteur D, puis entrer dans le dossier avec la commande cmd et exécuter la commande :
composer require owner888/phpspider
Le résultat suivant est une installation réussie.
Recommandations associées : "Configuration de l'environnement php"
4. Commencez à écrire le premier robot< 🎜. >
Maintenant, ouvrez le dossier jianshu, vous constaterez qu'il contient encore d'autres éléments, ne vous inquiétez pas, créez un fichier php et commencez à coder. La documentation de développement est ici : https://doc.phpspider.org/demo-start.htmlJe ne parlerai pas des bases ici, allez directement au code, car nous faisons un tutoriel rapide de 10 minutes. La méthode de correspondance utilise la syntaxe XPach.<?php require '/vendor/autoload.php'; use phpspider\core\phpspider; /* Do NOT delete this comment */ /* 不要删除这段注释 */ $configs = array( 'name' => '简书', 'log_show' =>false, 'tasknum' => 1, //数据库配置 'db_config' => array( 'host' => '127.0.0.1', 'port' => 3306, 'user' => 'root', 'pass' => '', 'name' => 'demo', ), 'export' => array( 'type' => 'db', 'table' => 'jianshu', // 如果数据表没有数据新增请检查表结构和字段名是否匹配 ), //爬取的域名列表 'domains' => array( 'jianshu', 'www.jianshu.com' ), //抓取的起点 'scan_urls' => array( 'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop' ), //列表页实例 'list_url_regexes' => array( "https://www.jianshu.com/c/\d+" ), //内容页实例 // \d+ 指的是变量 'content_url_regexes' => array( "https://www.jianshu.com/p/\d+", ), 'max_try' => 5, 'fields' => array( array( 'name' => "title", 'selector' => "//h1[@class='title']", 'required' => true, ), array( 'name' => "content", 'selector' => "//div[@class='show-content-free']", 'required' => true, ), ), ); $spider = new phpspider($configs); $spider->start();
//h1[@class='title']
//div[@class='show-content-free']
php -f d:\jianshu\spider.php
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!