Maison

Bibliothèques PHP

Autres bibliothèques

bibliothèque d'exploration de sites Web php

Autres bibliothèques

Obtenez le maintenant

bibliothèque d'exploration de sites Web php

<?php
header("Content-Type: text/html; charset=UTF-8");
require("phpQuery.php");
$hj = QueryList::Query('http://mobile.csdn.net/',array("title"=>array('.unit h1','text')));
//dump($hj->data);
$data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',array(
    'image' => array('img','src')
    ))->data;
//
$data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',array(
    'link' => array('a','href')
    ))->data;
$page = 'http://cms.querylist.cc/news/566.html';
$reg = array(
    'title' => array('h1','text'),
    'date' => array('.pt_info','text','-span -a',function($content){
        $arr = explode(' ',$content);
        return $arr[0];
    }),
    'content' => array('.post_content','html','a -.content_copyright -script',function($content){
     
            $doc = phpQuery::newDocumentHTML($content);
            $imgs = pq($doc)->find('img');
            foreach ($imgs as $img) {
                $src = 'http://cms.querylist.cc'.pq($img)->attr('src');
                $localSrc = 'w/'.md5($src).'.jpg';
                $stream = file_get_contents($src);
                file_put_contents($localSrc,$stream);
                pq($img)->attr('src',$localSrc);
            }
            return $doc->htmlOuter();
    })
    );
$rang = '.content';
$ql = QueryList::Query($page,$reg,$rang);
$data = $ql->getData();
dump($data);

prend en charge l'exploration de sites Web et l'exploration. Il est très puissant. Il s'agit d'un projet open source côté serveur basé sur PHP. Il permet aux développeurs PHP de traiter facilement le contenu d'un document DOM, par exemple pour obtenir les informations principales d'un site Web d'actualités. Ce qui est plus intéressant, c'est qu'il utilise l'idée dejQuery. Vous pouvez traiter le contenu de la page comme si vous utilisiez jQuery pour obtenir les informations de page souhaitées.

Clause de non-responsabilité

Toutes les ressources de ce site proviennent d'internautes ou sont réimprimées par les principaux sites de téléchargement. Veuillez vérifier vous-même l'intégrité du logiciel ! Toutes les ressources de ce site sont uniquement à titre de référence d'apprentissage. Merci de ne pas les utiliser à des fins commerciales. Sinon, vous serez responsable de toutes les conséquences ! En cas d'infraction, veuillez nous contacter pour la supprimer. Coordonnées : [email protected]

Article connexe

Le robot d'exploration Python obtient des sites Web de drames américains

18 Mar 2017

J'ai toujours eu l'habitude de regarder des séries télévisées américaines. D'une part, je peux pratiquer mes capacités d'écoute en anglais et, d'autre part, je peux passer le temps. Autrefois, il était possible de regarder des films en ligne sur des sites de vidéo, mais depuis l'ordonnance de restriction imposée par l'Administration d'État de la radio, du cinéma et de la télévision, les fictions américaines et britanniques importées ne semblent plus être mises à jour simultanément comme avant. Cependant, en tant que nerd, comment puis-je être prêt à ne pas suivre les drames, alors j'ai vérifié en ligne et trouvé un site Web de téléchargement de drames américains [Tiantian American Drama] qui peut être téléchargé à l'aide de Thunder. Je peux télécharger diverses ressources à volonté. Je suis obsédé par le documentaire haute définition de la BBC, la nature est si belle. Même si j'ai trouvé un site Web de ressources et que je peux le télécharger, je dois quand même ouvrir le navigateur à chaque fois, saisir l'URL et trouver le...

Téléchargement d'images PHP : résolution d'échecs d'exploration de sites spécifiques et de restrictions d'agent utilisateur

11 Dec 2025

Ce tutoriel a pour objectif de résoudre le problème d'échec file_get_contents rencontré par PHP lors du téléchargement d'images depuis un site web spécifique, notamment lorsque le serveur rejette la requête en raison d'un User-Agent manquant ou reconnu. L'article expliquera en détail comment utiliser stream_context_create pour ajouter des en-têtes de requête HTTP personnalisés (en particulier User-Agent) à la méthode file_get_contents, contournant ainsi avec succès les restrictions du serveur et obtenant un téléchargement d'images stable et efficace. Le contenu couvre les méthodes de téléchargement simples, la configuration avancée de l’en-tête de requête et les précautions associées.

Guide de déploiement, de planification et d'intégration de données de sites Web statiques du robot d'exploration Node.js

30 Nov 2025

Ce didacticiel explique comment déployer et exécuter automatiquement un robot d'exploration Web Node.js pour capturer les données planifiées et mettre à jour le contenu statique du site Web. Nous discuterons du mécanisme d'exécution côté serveur des scripts Node.js, de la configuration d'outils de planification tels que le Planificateur de tâches Windows et de la stratégie d'intégration des données analysées avec des pages HTML statiques, dans le but de vous aider à créer un processus de mise à jour des données efficace et automatisé.

Comment créer un robot d'exploration Web de base en PHP

30 Nov 2025

La réponse est de créer un robot d'exploration Web PHP de base. Vous devez utiliser file_get_contents pour obtenir le contenu d'une page Web, analyser le HTML et extraire des liens via DOMDocument et DOMXPath, utiliser la fonction makeAbsolute pour convertir les URL relatives en URL absolues et implémenter une logique d'exploration simple via des files d'attente et des enregistrements d'accès. Faites attention à éviter de ramper à plusieurs reprises et à contrôler la profondeur. Il convient à l'apprentissage ou aux petites tâches.

Pratique du robot d'exploration de sites Web Rvest : analysez efficacement le tableau de données de la Japan Professional Baseball League (NPB)

01 Feb 2026

Cet article explique en détail comment utiliser le package rvest du langage R pour capturer de manière stable des données statistiques multi-tables sur le site Web npb.jp. Il se concentre sur la résolution de problèmes courants tels que les erreurs de certificat SSL, la reconnaissance de structure dynamique et les échecs du sélecteur CSS, et fournit des solutions de code réutilisables et robustes.

Optimiser le référencement des sites Web multilingues : évitez l'impact de la redirection automatique de la langue sur les robots d'exploration

14 Nov 2025

Cet article explore en profondeur l'impact négatif de la redirection automatique de sites Web multilingues basée sur l'en-tête Accept-Language du navigateur sur les robots des moteurs de recherche et l'expérience utilisateur. Ce mécanisme a souvent pour conséquence que certaines versions linguistiques du site Web ne sont pas explorées et indexées correctement. Pour résoudre ce problème, nous vous recommandons de supprimer les redirections automatiques et d'utiliser à la place des invites linguistiques lancées par l'utilisateur, ce qui peut améliorer considérablement les performances de référencement du site Web et la satisfaction des utilisateurs.

Afficher plus