Maison > développement back-end > tutoriel php > Comment créer un robot d'exploration Web PHP pour collecter des données à partir de plusieurs liens ?

Comment créer un robot d'exploration Web PHP pour collecter des données à partir de plusieurs liens ?

Susan Sarandon
Libérer: 2024-11-08 06:50:02
original
522 Les gens l'ont consulté

How to Build a PHP Web Crawler to Gather Data from Multiple Links?

PHP Web Crawler : récolte de données à partir de plusieurs liens

Question :

Créer un PHP script pour récupérer les données de plusieurs liens sur une page Web et les stocker dans un fichier local fichier.

Réponse :

Utilisation du DOM et du contrôle de profondeur :

function crawl_page($url, $depth = 5)
{
    static $seen = array();
    if (isset($seen[$url]) || $depth === 0) {
        return;
    }

    $seen[$url] = true;

    $dom = new DOMDocument('1.0');
    @$dom->loadHTMLFile($url);

    $anchors = $dom->getElementsByTagName('a');
    foreach ($anchors as $element) {
        $href = $element->getAttribute('href');
        // Handle relative URLs
        if (0 !== strpos($href, 'http')) {
            $path = '/' . ltrim($href, '/');
            if (extension_loaded('http')) {
                $href = http_build_url($url, array('path' => $path));
            } else {
                $parts = parse_url($url);
                $href = $parts['scheme'] . '://';
                $href .= $parts['host'];
                if (isset($parts['port'])) {
                    $href .= ':' . $parts['port'];
                }
                $href .= dirname($parts['path'], 1).$path;
            }
        }
        crawl_page($href, $depth - 1);
    }

    // Output data
    echo "URL:", $url, PHP_EOL, "CONTENT:", PHP_EOL, $dom->saveHTML(), PHP_EOL, PHP_EOL;
}

// Usage
crawl_page("http://hobodave.com", 2);
Copier après la connexion

Remarques :

  • Cette version utilise l'analyse DOM, qui est plus robuste que Analyse RegEx.
  • Il gère correctement les URL relatives.
  • Il utilise un contrôle de profondeur pour empêcher les boucles infinies.
  • La sortie est renvoyée vers STDOUT, vous permettant de la rediriger vers un fichier.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal